0推荐
79K 浏览

Java网页抓取工具 PlayFish

playfish是一个采用java技术,综合应用多个开源java组件实现的网页抓取工具,通过XML配置文件实现高度可定制性与可扩展性的网页抓取工具
jopen 12年前   
0推荐
24K 浏览

Perl开发的爬虫程序 Combine

Combine 是一个用Perl语言开发可扩展的Web资源爬虫程序。
jopen 12年前   
0推荐
24K 浏览

国内招聘信息爬虫 JobHunter

JobHunter旨在自动地从一些大型站点来获取招聘信息,如chinahr,51job,zhaopin等等。JobHunter 搜索每个工作项目的邮件地址,自动地向这一邮件地址发送申请文本。
jopen 12年前   
0推荐
15K 浏览

Java网页爬虫:BlueLeech

BlueLeech是一个开源程序,它从指定的URL开始,搜索所有可用的链接,以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。
jopen 12年前   
0推荐
18K 浏览

网页爬虫框架 hispider

HiSpider是一个快速和高性能的网页爬虫。 严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布...
jopen 12年前   
0推荐
17K 浏览

Methabot Web Crawler

Methanol是一个可编写脚本,多用途的Web爬虫系统。拥有一个可扩展配置系统和速度优化架构设计。
jopen 12年前   
0推荐
44K 浏览

Java Web爬虫 - ItSucks

ItSucks是一个Java Web爬虫开源项目。可灵活定制,支持通过下载模板和正则表达式来定义下载规则。提供一个控制台和Swing GUI操作界面。
jopen 12年前   
0推荐
28K 浏览

Ebot 构建在NOSQL数据库之上的Web爬虫

Erlang Bot (Ebot)是一个开源的Web爬虫,构建在 Erlang, NOSQL数据库( Apache CouchDB 或 Riak), RabbitMQ, Webmachine (...
jopen 12年前   
0推荐
29K 浏览

jcrawl 一款小巧性能优良的的web爬虫

jcrawl是一款小巧性能优良的的web爬虫,它可以从网页抓取各种类型的文件,基于用户定义的符号,比如email,qq.
jopen 12年前   
0推荐
17K 浏览

DotNetWikiBot Framework

DotNetWikiBot Framework 是一个全功能的客户端API和一个控制台应用,用来构建抓取基于 MediaWiki 网站的爬虫,采用 .NET 开发。
jopen 12年前   
0推荐
20K 浏览

Web挖掘工具包 Bixo

Bixo 是一个开放源码的Web挖掘工具包,基于 Hadoop 开发和运行。通过建立一个定制的级联管总成,您可以快速创建Web挖掘是专门为特定用例优化的应用程序。
jopen 12年前   
0推荐
49K 浏览

WebSPHINX - 可定制的Java Web爬虫

WebSPHINX是一个Java类包和Web爬虫的交互式开发环境。Web爬虫(也叫作机器人或蜘蛛)是可以自动浏览与处理Web页面的程序。WebSPHINX由两部分组成:爬虫工作平台和WebSPH...
jopen 12年前   
0推荐
44K 浏览

Spidr : Ruby开发的Web爬虫

Spidr是一个多功能的Ruby web 爬虫库。它可以抓取一个网站,多个域名或某些链接。Spidr被设计成快速和容易使用。
jopen 12年前   
0推荐
26K 浏览

Java爬虫 :WebLech URL Spider

WebLech URL Spider是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。
jopen 12年前   
0推荐
25K 浏览

Java开发的整个网站下载工具,JoBo

JoBo是一个用于下载整个Web站点的简单工具。它本质是一个 Web Spider。与其它下载工具相比较它的主要优势是能够自动填充form(如:自动登录)和使用cookies来处理session。
jopen 12年前   
0推荐
19K 浏览

Arale,一个 Java Web 爬虫

Arale能够下载整个网站或来自网站的某一特定资源。Arale还能够把动态页面渲染成静态页面。
jopen 12年前   
0推荐
22K 浏览

C#多线程web爬虫程序 spidernet

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和u...
jopen 12年前   
0推荐
56K 浏览

C#编写的多线程网络爬虫:NCrawler

NCrawler是一个简单并且非常高效的多线程网络爬虫。采用C#开发,基于管道的处理器。
jopen 12年前   
0推荐
29K 浏览

基于Java的web爬虫,Arachnid

Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spide...
jopen 12年前   
0推荐
98K 浏览

Python开发的Web爬虫,Scrapy

Scrapy 是一套基于基于Twisted的异步处理框架,纯python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。
n6dw 12年前   
1 2 3 4 5 6 7 8 9 10

经验分享,提升职场影响力

投稿

热门问答

    热门文档