开源项目,开源代码,开源文档,开源新闻,开源社区

前言：在爬虫的开发过程中，有些业务场景需要同时抓取几百个甚至上千个网站，此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点：代码复用，功能模块化。如果针对每个网站都写一个完整的爬虫，那其中必

AliLavallee 2017-02-12 30425 0

软件架构分布式系统网络爬虫

看看运行结果，这是书籍类目的 Paste_Image.png 这是构造出的每一个类目里面所有的页数链接，也是我们爬虫的入口，一共5000多页 Paste_Image.png 接下来是封装的数据库操作，因

bigzhangxy 2017-02-07 13550 0

数据库网络爬虫 beautifulsoup

webmagic 采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。 webmagic包含强大的页面抽取功能，

jopen 2013-11-07 20176 0

WebMagic

P都不一样，所以我们可以通过程序来自动进行重新拨号以获得新的IP地址，以达到突破反爬虫封锁的目的。 8年多爬虫经验的人告诉你，国内ADSL是王道，多申请些线路，分布在多个不同的电信机房，能跨省

dy223 2015-03-26 111574 0

爬虫网络爬虫

Scrapy 是一套基于基于Twisted的异步处理框架，纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便～ Scrapy

jopen 2015-07-01 13285 0

Scrapy

而为了提供更好的用户体验搜索引擎和社交媒体网站对这种数据的使用也越来越多。要获取这些数据离不开网络爬虫的支持，为此，Yahoo创建了 Anthelion项目，一个旨在爬取语义数据的Nutch插件，最近，该项目已在GitHub上开源

jopen 2015-12-25 22316 0

Anthelion

gecco 1.0.5 发布了， gecco 是易用的轻量化网络爬虫。主要改进： 1、修复redirect的相对url的bug 2、增加了支持htmlunit的插件 3、增加抓取JD全部商品的demo

jopen 2016-03-06 6557 0

SeimiCrawler是一个敏捷的，支持分布式的爬虫开发框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里

jopen 2015-12-23 11429 0

SeimiCrawler

XSScrapy是一个快速、直接的XSS漏洞检测爬虫，你只需要一个URL，它便可以帮助你发现XSS跨站脚本漏洞，XSScrapy的XSS漏洞攻击测试向量覆盖Referer字段、User-Agent字段

jopen 2014-09-17 22086 0

XSScrapy 安全相关

基于gevent和多线程模型，支持WebKit引擎的动态爬虫框架。特性支持gevent和多线程两种并行模型支持Webkit引擎 (dom parse,ajax fetch,etc...) 多个自定义选项设置

jopen 2014-02-07 39101 0

网络爬虫 Vulcan Spider

Pholcus（幽灵蛛）是一款纯Go语言编写的重量级爬虫软件，清新的GUI界面，优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo，支持横纵向两种抓取模式，支持模拟登录和任务取消等，并且考虑了支持分布式布局。

jopen 2015-06-21 64198 0

Pholcus 网络爬虫

http://segmentfault.com/a/1190000003817510 Scrapy 是Python非常有名的爬虫框架，框架本身已经为爬虫性能做了很多优化：多线程、整合xpath和图片专用管道等等，开发人员只要专注在功能需求上。

jopen 2015-10-04 34435 0

Scrappy 网络爬虫

基于Scrapy 的 PIXIV爬虫，功能简单（简陋），实现了简单的页面信息抽取，JSON API信息抽取，IMAGE存储等功能。基于Scrapy的配置文件进行灵活配置（包含某些福利选项），并通过Cookie

f2xc 2015-10-01 21349 0

jopen 网络爬虫

简单的博客，捉襟见肘，望大侠路过指导！好了，此处有广告之嫌，进入正题。关于Nodejs的爬虫程序，百度一大把，是的，我也是百度到的，然后到github上看了看cheerio模块；乍一看，这不

linjiazhen 2016-02-03 13451 0

Node.js Node.js 开发

模拟提交就是说我们不自己登陆到客户端，仅仅靠发送请求就模拟了客户端的操作，在现实使用的时候经常用来接收一些需要登录才能获取到的数据，来模拟表单的提交，所以很多时候也被称作虚拟登录，这次的例子是我自己为学校实验室开发的官方网站的纳新报名系统，设置有一个管理员，管理员通过登录就可以查看报名人的信息，做一个虚拟登录来获取到报名信息页面，因为如果没有登录直接到达这个页面，页面是不给访问的，具体技术我开发的时候用到了session，就不详细描述了。

jopen 2016-01-17 14272 0

网络爬虫 HttpComponents

SinaSpider 动态IP解决新浪的反爬虫机制，快速抓取微博内容。 Background 抓取1000个公司（在companyList.py文件中）五年内相关的微博，进而统计评论数、转发数、点赞数等等。

virtuala 2017-02-28 34334 0

新浪网络爬虫

爬虫，几家欢喜几人愁。爬者，拿到有利数据，分析行为，产生价值。被爬者，一是损失数据，二是遇到不怀好意的爬虫往往被全站复制或服务器受冲击而无法服务。今天说的是一只友好的爬虫是如何构建出来的，请勿用它伤害他人。

ksed1524 2017-03-10 40454 0

代理服务器 Python 网络爬虫 JavaScript

net/p/jsonpath WebMagic今后的目标是一个完整的产品，让即使不会编码的人也能通过简单脚本，完成基本的爬虫开发，并促进脚本分享。这就是 WebMagic-Avalon计划。大家可以查看 https://github

jopen 2013-11-28 8579 0

WebMagic

近日，新的研究表明，假冒谷歌爬虫已经成为第三大DDoS攻击工具，详情如下： Incapsula研究人员在调查了搜索引擎在1万家网站上的4亿次搜索访问后，发现超过23%的假冒谷歌爬虫被用于DDoS攻击，10

jopen 2014-07-29 8736 0

DDoS

Scrapy 是一套基于基于Twisted的异步处理框架，纯python实现的爬虫框架，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便～ Scrapy

jopen 2015-08-07 10326 0

Scrapy

分布式多爬虫系统——架构设计经验

宜搜全站数十万小说爬虫经验

Java爬虫框架，WebMagic 0.4.0 发布资讯

自动更改IP地址反爬虫封锁，支持多线程经验

Scrapy 1.0.1 发布，Web爬虫框架资讯

雅虎开源语义数据Web爬虫：Anthelion 资讯

gecco 1.0.5 发布，轻量化网络爬虫资讯

Java 爬虫框架，SeimiCrawler V0.2.5 发布资讯

快速、直接的XSS漏洞检测爬虫：XSScrapy 经验

基于gevent和多线程模型的爬虫：Vulcan Spider 经验

纯Go语言编写的重量级爬虫软件：Pholcus（幽灵蛛）经验

Scrappy入门：百度贴吧图片爬虫经验

基于Scrapy的Pixiv热榜爬虫：pixiv_crawl 经验

Nodejs，不一样的爬虫实践经验

网络爬虫入门（二）模拟提交以及HttpClient修正经验

"开源：SinaSpider - 动态IP解决新浪的反爬虫机制" 经验

一只优雅的小爬虫诞生记经验

Java 爬虫框架，WebMagic 0.4.1 发布资讯

假冒谷歌爬虫成为第三大 DDoS 攻击工具资讯

Web 爬虫框架，Scrapy 1.0.2 发布资讯

python爬虫发展背景的相关搜索

关键词

分布式多爬虫系统——架构设计 经验

宜搜全站数十万小说爬虫 经验

Java爬虫框架，WebMagic 0.4.0 发布 资讯

自动更改IP地址反爬虫封锁，支持多线程 经验

Scrapy 1.0.1 发布，Web爬虫框架 资讯

雅虎开源语义数据Web爬虫：Anthelion 资讯

gecco 1.0.5 发布，轻量化网络爬虫 资讯

Java 爬虫框架，SeimiCrawler V0.2.5 发布 资讯

快速、直接的XSS漏洞检测爬虫：XSScrapy 经验

基于gevent和多线程模型的爬虫：Vulcan Spider 经验

纯Go语言编写的重量级爬虫软件：Pholcus（幽灵蛛） 经验

Scrappy入门：百度贴吧图片爬虫 经验