开源项目,开源代码,开源文档,开源新闻,开源社区

有各种用途的网络爬虫，但本质上是一个网络爬虫是用来从互联网收集挖掘数据。大多数搜索引擎使用它作为提供了最新数据的方法，并用于查找互联网上有什么新的内容。在这篇文章中，介绍前50个开源的Web爬虫可在网上进行数据挖掘。

b573 2015-01-24 189721 0

Web爬虫网络爬虫

gecco-spring gecco爬虫和spring结合使用 Download com.geccocrawler

jopen 2016-01-25 32051 0

网络爬虫

init This utility will walk you through creating a package.json file. It only covers the most common

SethAndrus 2016-01-31 24798 0

Node.js Node.js 开发

使用 scrapy 爬虫抓取代理网站，获取大量的免费代理 ip。过滤出所有可用的 ip，存入数据库以备使用。运行环境 python 2.7.12 运行依赖包 scrapy BeautifulSoup

epimetheus 2017-02-14 42889 0

代理 Python 爬虫网络爬虫

https://github.com/iNuanfeng/node-spider/ nodejs爬虫，爬取汽车之家所有车型数据 http://www.autohome.com.cn/car/ 包括品牌，车系，年份，车型四个层级。

dd90w156f3 2017-02-23 34605 0

Node.js 网络爬虫

小喵的唠叨话：这次的博客，讲的是使用python编写一个爬虫工具。为什么要写这个爬虫呢？原因是小喵在看完《极黑的布伦希尔特》这个动画之后，又想看看漫画，结果发现各大APP都没有资源，最终好不容易找到一

bester200 2017-03-06 36927 0

Python Selenium 网络爬虫

P46

1. shirlyzhang新人分享 ——nodejs运行机制及RSS爬虫实例分享 2. shirlyzhangnodejs是一个平台让Javascript运行在浏览器之外的平台 3. shirlyzhang为什么适合开发服务器端程序呢？

m286 2015-12-07 561 0

Node.js 开发 HTTP Java XML

Pholcus（幽灵蛛）是一款纯Go语言编写的高并发、分布式、重量级爬虫软件，支持单机、服务端、客户端三种运行模式，拥有Web、GUI、命令行三种操作界面；规则简单灵活、批量任务并发、输出方式丰富（m

jopen 2016-03-03 6066 0

MySQL Go语言分布式系统

来自： http://www.oschina.net//news/70039/pholcus-0-8-0

jopen 2016-01-20 7945 0

// judge url Pattern pattern = Pattern.compile("^[a-zA-z]+://[^\\s]*"); Matcher matcher = pattern.matcher(url);

nbnb 2015-01-04 16607 4

爬虫

P35

SeimiCrawler一个敏捷强大的Java爬虫框架 An agile,powerful,standalone,distributed crawler framework. SeimiCrawle

max小狼 2016-08-09 8468 0

Java Java开发 SeimiCrawler

// judge url Pattern pattern = Pattern.compile("^[a-zA-z]+://[^\\s]*"); Matcher matcher = pattern.matcher(url);

fmms 2012-01-18 34944 0

Java 网络爬虫

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源

fmms 2012-04-05 35422 0

C# 网络爬虫

NCrawler是一个简单并且非常高效的多线程网络爬虫。采用C#开发，基于管道的处理器。它包含HTML, Text, PDF, 和 IFilter 文档的处理器并语言检测(Google)。能够很方便添加管道步骤来抽取、使用和修改信息。

jopen 2012-10-10 55904 0

爬虫网络爬虫

NWebCrawler是一款开源，C#开发网络爬虫程序。特性：可配置：线程数，等待时间，连接超时，允许MIME类型和优先级，下载文件夹。统计信息：URL数量，总下载文件，总下载字节数，CPU利用率和可用内存。

jopen 2012-10-13 71719 0

爬虫网络爬虫

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。在线示例：

jopen 2014-11-17 270958 0

PySpider 网络爬虫

听闻python的Scrapy爬虫已久，最近正好想对去年一年在简书写作的文章做一下统计。作为软件工程师，肯定不能去按计算器，正好找到一个可以使用scrapy的场景，直接用爬虫来抓取简书页面，然后提取数据作统计。

大帅锅胚子 2017-02-24 35518 0

Scrapy 网络爬虫

{'class':'count'}).get_text() theme_link = list.find('a')['href'] theme_links='http://book.easou.com/'+theme_link#每个书籍类目的数量

bigzhangxy 2017-02-07 13550 0

数据库网络爬虫 beautifulsoup

webmagic 采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。 webmagic包含强大的页面抽取功能，

jopen 2013-11-07 20176 0

WebMagic

P都不一样，所以我们可以通过程序来自动进行重新拨号以获得新的IP地址，以达到突破反爬虫封锁的目的。 8年多爬虫经验的人告诉你，国内ADSL是王道，多申请些线路，分布在多个不同的电信机房，能跨省

dy223 2015-03-26 111574 0

爬虫网络爬虫

分布式爬虫'A=0 的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

MySQL JavaScript jQuery Python Java Lua HTML Firebug Apache Scala Oracle Solr 测试工具搜索引擎 Hadoop Windows Web框架 C/C++ Java 8 Intel Go语言机器学习 JavaScript开发中间件 .NET开发 C/C++开发数据库服务器分布式/云计算/大数据 Sixpack ini

排名前50的开源Web爬虫用于数据挖掘经验

gecco-spring - gecco爬虫和spring结合使用经验

使用Node.js制作爬虫教程经验

开源一个爬虫代理框架:IPProxyTool 经验

nodejs爬虫——汽车之家所有车型数据经验

爬虫-漫画喵的100行逆袭经验

nodejs运行机制及RSS爬虫实例分享文档

Pholcus 爬虫 v0.8.2，性能提升 20% 以上资讯

Pholcus 爬虫 v0.8.0，支持 HTML 风格动态规则资讯

简单的java爬虫抓取网页实现代码代码段

SeimiCrawler一个敏捷强大的Java爬虫框架文档

搜索引擎爬虫，抓取url的Java源码经验

C#多线程Web爬虫程序 spidernet 经验

C#编写的多线程网络爬虫：NCrawler 经验

C#开发网络爬虫程序：NWebCrawler 经验

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI 经验

使用python爬虫工具Scrapy统计简书文章阅读量经验

宜搜全站数十万小说爬虫经验

Java爬虫框架，WebMagic 0.4.0 发布资讯

自动更改IP地址反爬虫封锁，支持多线程经验

分布式爬虫'A=0 的相关搜索

关键词

排名前50的开源Web爬虫用于数据挖掘 经验

gecco-spring - gecco爬虫和spring结合使用 经验

使用Node.js制作爬虫教程 经验

开源一个爬虫代理框架:IPProxyTool 经验

nodejs爬虫——汽车之家所有车型数据 经验

爬虫-漫画喵的100行逆袭 经验

nodejs运行机制及RSS爬虫实例分享 文档

Pholcus 爬虫 v0.8.2，性能提升 20% 以上 资讯

Pholcus 爬虫 v0.8.0，支持 HTML 风格动态规则 资讯

简单的java爬虫抓取网页实现代码 代码段

SeimiCrawler一个敏捷强大的Java爬虫框架 文档

搜索引擎爬虫，抓取url的Java源码 经验

C#多线程Web爬虫程序 spidernet 经验

C#编写的多线程网络爬虫：NCrawler 经验

C#开发网络爬虫程序：NWebCrawler 经验

PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI 经验

使用python爬虫工具Scrapy统计简书文章阅读量 经验

宜搜全站数十万小说爬虫 经验

Java爬虫框架，WebMagic 0.4.0 发布 资讯

自动更改IP地址反爬虫封锁，支持多线程 经验

分布式爬虫'A=0 的相关搜索

关键词

排名前50的开源Web爬虫用于数据挖掘经验

gecco-spring - gecco爬虫和spring结合使用经验

使用Node.js制作爬虫教程经验

nodejs爬虫——汽车之家所有车型数据经验

爬虫-漫画喵的100行逆袭经验

nodejs运行机制及RSS爬虫实例分享文档

Pholcus 爬虫 v0.8.2，性能提升 20% 以上资讯

Pholcus 爬虫 v0.8.0，支持 HTML 风格动态规则资讯

简单的java爬虫抓取网页实现代码代码段

SeimiCrawler一个敏捷强大的Java爬虫框架文档

搜索引擎爬虫，抓取url的Java源码经验

使用python爬虫工具Scrapy统计简书文章阅读量经验

宜搜全站数十万小说爬虫经验

Java爬虫框架，WebMagic 0.4.0 发布资讯

自动更改IP地址反爬虫封锁，支持多线程经验