开源项目,开源代码,开源文档,开源新闻,开源社区

Cola Cola是一个分布式的爬虫框架，用户只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。依赖首先，确保Python版本为2.6或者2

jopen 2014-07-18 84246 0

Cola 网络爬虫

现一个通用的爬虫框架。最近由于要抓取新的数据，于是我就写了这个 cola 。下面的文字来自 wiki 。 Cola是一个分布式的爬虫框架，用户只需编写几个特定的函数，而无需关注分布式运行的细节。任

jopen 2016-01-07 14582 0

分布式系统 Python 网络爬虫

zerg 基于docker的分布式爬虫服务特性多机多 IP，充分利用 IP 资源服务自动发现和注册（基于 etcd 和 registrator）负载均衡 + 一致性哈希服务端客户端通信基于

jopen 2016-01-25 19571 0

网络爬虫 zerg: 基于docker的分布式爬虫服务 - GitHub

前言：在爬虫的开发过程中，有些业务场景需要同时抓取几百个甚至上千个网站，此时就需要一个支持多爬虫的框架。在设计时应该要注意以下几点：代码复用，功能模块化。如果针对每个网站都写一个完整的爬虫，那其中必

AliLavallee 2017-02-12 30425 0

软件架构分布式系统网络爬虫

一个复杂的分布式爬虫系统由很多的模块组成，每个模块是一个独立的服务(SOA架构)，所有的服务都注册到Zookeeper来统一管理和便于线上扩展。模块之间通过thrift(或是protobuf，或是so

BlaSidney 2016-09-29 37085 0

分布式系统网络爬虫

spider framework. 这是一个轻量级的分布式java爬虫框架特点这是一个强大，但又轻量级的分布式爬虫框架。jlitespider天生具有分布式的特点，各个worker之间需要通过一个或者多个消息队列来连接。消息队列我的选择是

StephaineRF 2016-10-11 9812 0

消息系统 Java 分布式系统 Java开发

P17

1. 自制分布式爬虫系统北京数人科技有限公司 doc.dataman-inc.com 2. 单机的 All-In-One 爬虫架构控制模块抓取模块抽取模块HA Proxy各地代理URLHTML模板结果JSONXML递归

dmc3 2015-07-25 1277 0

网络爬虫方案 HTTP HTML Java

学习python就一直想做爬虫的东西，还要继续学理论上的东西一要加强 #!/usr/bin/python #coding=utf-8 import urllib import re def getHtml(url):

atts 2016-01-22 1227 0

爬虫

P38

1. Python爬虫许超英 2. python爬虫基础知识： Python基础知识 Python中urllib和urllib2库的用法 Python正则表达式 Python爬虫框架Scrapy Python爬虫更高级的功能

xcyflyer 2016-05-26 826 0

Python开发 HTTP HTML JSON Python

上面的入门教程是很基础的，先跟着作者走一遍，要动起来哟，不要只是阅读上面的那篇入门教程，下面我简单总结一下Scrapy爬虫过程： 1、在Item中定义自己要抓取的数据： movie_name就像是字典中的“键”，爬到的数据就像似字典中的“值”。

jopen 2015-05-28 47485 0

Scrapy 网络爬虫

scrape 是一个使用 Go 语言开发的简单高级Web 爬虫。示例代码： package main import ( "fmt" "net/http" "github.com/yhat/scrape"

jopen 2015-05-24 15210 0

scrape 网络爬虫

larbin是一种开源的网络爬虫/网络蜘蛛，由法国的年轻人 Sébastien Ailleret独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取，最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫，也就

jopen 2012-10-13 25366 0

爬虫网络爬虫

[Python]代码 import re import urllib import urllib.request from collections import deque queue = deque()#存放待爬取的网址 visited = set()#存放爬取过的网址。判断是否爬取过 url = "http://news.dbanotes.net"#入口网站 queue.append(url)

LueOsburn 2016-01-24 9148 1

Python

P7

开源爬虫Labin，Nutch，Neritrix介绍和对比 2 6 从网上找了一些开源spider的相关资料，整理在下面： Larbin 开发语言：C++ http://larbin.sourceforge

jackylee 2017-06-01 1350 0

网络爬虫方案 Apache C/C++ Go

Crowbar: 基于Mozilla浏览器的 ajax 爬虫，还可作为远程浏览器使用，比较有意思。项目主页： http://www.open-open.com/lib/view/home/1324864120014

jopen 2011-12-25 55220 0

Ajax 爬虫网络爬虫

一个开源的JAVA爬虫，包含了一套爬虫的内核和一套完整的爬虫。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。项目主页：

jopen 2014-07-20 30401 0

网络爬虫 WebCollector

最好用最实用的爬虫框架。简介 SeimiCrawler是一个敏捷的，支持分布式的爬虫开发框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率

jopen 2015-11-10 57705 0

网络爬虫 SeimiCrawler

Ugly-Distributed-Crawler 简陋的分布式爬虫新手向，基于Redis构建的分布式爬虫。以爬取考研网的贴子为例，利用 PyQuery, lxml 进行解析，将符合要求的文章文本存入MySQ数据库中。

ty014914 2017-04-05 51379 0

Redis 分布式系统网络爬虫

有前人分析了知乎日报、凤凰新闻等 API，根据相应的 URL 可以获取新闻的 JSON 数据。为了锻炼写代码能力，笔者打算爬虫新闻页面，自己获取数据构建 API。本文链接 http://blog.csdn.net/ne

KimO32 2016-02-08 238717 0

网络爬虫

线程池爬虫，同时也为大家提供一个思路。代码都是经过调试的，并且留了相对友好的用户接口。可以很容易得添加各种各样增强型的功能。 0×01 功能定义 1. 可选择的单页面爬虫与多页面线程池爬虫 2

CarolynEUEZ 2016-04-06 19903 0

线程池 Python Python开发

分布式爬虫框架：Cola 经验

Cola：一个分布式爬虫框架经验

zerg - 基于docker的分布式爬虫服务经验

分布式多爬虫系统——架构设计经验

如何设计一个复杂的分布式爬虫系统？经验

JLiteSpider：轻量级的分布式 Java 爬虫框架经验

微服务实例-构建分布式爬虫系统-数人科技文档

python 爬虫代码段

python爬虫文档

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫经验

Web 爬虫：scrape 经验

Web爬虫 larbin 经验

python简单爬虫代码段

开源爬虫的比较文档

ajax 爬虫 Crowbar 经验

JAVA爬虫：WebCollector 经验

一个敏捷的，分布式的Java爬虫框架：SeimiCrawler 经验

Python开源:Ugly-Distributed-Crawler - 基于 Redis 实现的简单到爆的分布式爬虫经验

Java实现爬虫给App提供数据（Jsoup 网络爬虫）经验

Python爬虫开发（三-续）：快速线程池爬虫经验

分布式爬虫的相关搜索

关键词

分布式爬虫框架：Cola 经验

Cola：一个分布式爬虫框架 经验

zerg - 基于docker的分布式爬虫服务 经验

分布式多爬虫系统——架构设计 经验

如何设计一个复杂的分布式爬虫系统？ 经验

JLiteSpider：轻量级的分布式 Java 爬虫框架 经验

微服务实例-构建分布式爬虫系统-数人科技 文档

python 爬虫 代码段

python爬虫 文档

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫 经验