开源项目,开源代码,开源文档,开源新闻,开源社区

今天公司有个需求，需要做一些指定网站查询后的数据的抓取，于是花了点时间写了个demo供演示使用。思想很简单：就是通过Java访问的链接，然后拿到html字符串，然后就是解析链接等需要的数据。技术上使用Jsoup方便

jopen 2016-01-16 26758 0

Java开发

Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并

jopen 2012-10-10 29192 0

爬虫网络爬虫

是一个业余时间开发的，支持多线程，支持关键字过滤，支持正文内容智能识别的爬虫。爬虫的核心实现在ScrapingSpider.Core程序集中。爬虫类为Spider类，爬虫的爬取逻辑，与页面处理逻辑通过事件分离，两个关键

jopen 2015-01-19 21009 0

网络爬虫 ScrapingSpider

P35

SeimiCrawler一个敏捷强大的Java爬虫框架 An agile,powerful,standalone,distributed crawler framework. SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。

max小狼 2016-08-09 8468 0

Java Java开发 SeimiCrawler

webmagic 采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。 webmagic包含强大的页面抽取功能，

jopen 2013-11-07 20176 0

WebMagic

SeimiCrawler是一个敏捷的，支持分布式的爬虫开发框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里

jopen 2015-12-23 11429 0

SeimiCrawler

net/p/jsonpath WebMagic今后的目标是一个完整的产品，让即使不会编码的人也能通过简单脚本，完成基本的爬虫开发，并促进脚本分享。这就是 WebMagic-Avalon计划。大家可以查看 https://github

jopen 2013-11-28 8579 0

WebMagic

onse的问题 v0.2.5 增加请求遭遇严重异常时重新打回队列处理机制当一个请求在经历网络请求异常的重试机制后依然出现非预期异常，那么这个请求会在不超过开发者设置的或是默认的最大重新处理次

jopen 2016-01-16 11863 0

SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。简介 SeimiCrawler是一个敏捷的，支持分布式的Java爬虫开发框架，希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛，以

jopen 2016-01-09 8783 0

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。以下是爬取oschina博客的一段代码： ? 1 2 Spider.create(

jopen 2016-01-21 17541 0

webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的核心非常简单，但是覆盖爬虫的整个流程，也是很好的学习爬虫开发的材料。作者曾经在前

jopen 2013-11-28 121151 0

网络爬虫 WebMagic

lite distributed Java spider framework. 这是一个轻量级的分布式java爬虫框架特点这是一个强大，但又轻量级的分布式爬虫框架。jlitespider天生具

StephaineRF 2016-10-11 9812 0

消息系统 Java 分布式系统 Java开发

Pluton 是一个简单的框架，能够用来构建更轻量的、易于调试的、延迟降低等功能的网络应用程序。Yahoo 使用它极大地减少了 web 服务延迟时间，提高了可恢复性。该框架的核心功能包括

ec3y 2015-05-06 8526 0

Pluton 网络工具包

本项目基于golang开发，是一个开放的垂直领域的爬虫引擎，主要希望能将各个功能模块区分开，方便使用者重新实现子模块，进而构建自己垂直方方向的爬虫。本项目将爬虫的各个功能流程区分成Spider模块（主控

jopen 2015-01-10 41021 0

go_spider 网络爬虫

HiSpider是一个快速和高性能的网页爬虫。严格说只能是一个spider系统的框架, 没有细化需求, 目前只是能提取URL, URL排重, 异步DNS解析, 队列化任务, 支持N机分布式下载,

jopen 2012-10-12 17834 0

爬虫网络爬虫

Scrapy为每一个start_urls创建一个 scrapy.http.Request 对象,并将爬虫的parse 方法指定为回调函数。这些Request首先被调度,然后被执行,之后通过parse()方法

jopen 2013-07-11 77889 0

Scrapy 网络爬虫

heyDr是一款基于java的轻量级开源多线程垂直检索爬虫框架，遵循GNU GPL V3协议。用户可以通过heyDr构建自己的垂直资源爬虫，用于搭建垂直搜索引擎前期的数据准备。项目主页：

jopen 2013-05-05 19592 0

爬虫网络爬虫

Grab是一个Python开源Web爬虫框架。Grab提供非常多实用的方法来爬取网站和处理爬到的内容： Automatic cookies (session) support HTTP and SOCKS

jopen 2015-08-29 35043 0

Grab 网络爬虫

Cola Cola是一个分布式的爬虫框架，用户只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。依赖首先，确保Python版本为2.6或者2

jopen 2014-07-18 84246 0

Cola 网络爬虫

P23

8.1 网络编程的基本概念，TCP/IP协议简介- 8.1.1 网络基础知识　　计算机网络形式多样，内容繁杂。网络上的计算机要互相通信，必须遵循一定的协议。目前使用最广泛的网络协议是Internet上所使用的TCP/IP协议

bored2v 2012-06-11 4790 0

Java开发 Java

Java 网络爬虫框架的相关搜索

1 2 3 4 5 6 7 8 9 10

关键词

Android Linux C语言 Ruby 移动开发机器学习 aLiLua 神经网络 JavaScript开发 Android开发 iOS开发网络工具包 Python开发 Objective-C开发 libevent itachi Volley IVRE Lunar Purine Heyoffline.js iOS Interactive android-async-http SDWebImage OkHttpUtils - Java - GitHub net-Ballet: linux 网络框架

Java爬虫，信息抓取的实现经验

基于Java的web爬虫，Arachnid 经验

Java Web爬虫：ScrapingSpider 经验

SeimiCrawler一个敏捷强大的Java爬虫框架文档

Java爬虫框架，WebMagic 0.4.0 发布资讯

Java 爬虫框架，SeimiCrawler V0.2.5 发布资讯

Java 爬虫框架，WebMagic 0.4.1 发布资讯

Java 爬虫框架：seimicrawler v0.2.7 发布资讯

Java 爬虫框架，SeimiCrawler v0.2.6 发布资讯

Java爬虫框架，WebMagic 0.5.3 版本发布资讯

开源的Java垂直爬虫框架：webmagic 经验

JLiteSpider：轻量级的分布式 Java 爬虫框架经验

网络框架：Pluton 经验

爬虫框架：go_spider 经验

网页爬虫框架 hispider 经验

Scrapy 示例 - Web 爬虫框架经验

检索爬虫框架：heyDr 经验

Python开源爬虫框架：Grab 经验

分布式爬虫框架：Cola 经验

Java网络编程文档

Java 网络爬虫框架的相关搜索

关键词

Java爬虫，信息抓取的实现 经验

基于Java的web爬虫，Arachnid 经验

Java Web爬虫：ScrapingSpider 经验

SeimiCrawler一个敏捷强大的Java爬虫框架 文档

Java爬虫框架，WebMagic 0.4.0 发布 资讯

Java 爬虫框架，SeimiCrawler V0.2.5 发布 资讯

Java 爬虫框架，WebMagic 0.4.1 发布 资讯

Java 爬虫框架：seimicrawler v0.2.7 发布 资讯

Java 爬虫框架，SeimiCrawler v0.2.6 发布 资讯

Java爬虫框架，WebMagic 0.5.3 版本发布 资讯

开源的Java垂直爬虫框架：webmagic 经验

JLiteSpider：轻量级的分布式 Java 爬虫框架 经验

网络框架：Pluton 经验

爬虫框架：go_spider 经验

网页爬虫框架 hispider 经验

Scrapy 示例 - Web 爬虫框架 经验

检索爬虫框架：heyDr 经验

Python开源爬虫框架：Grab 经验

分布式爬虫框架：Cola 经验

Java网络编程 文档

Java 网络爬虫框架 的相关搜索

关键词

Java爬虫，信息抓取的实现经验

SeimiCrawler一个敏捷强大的Java爬虫框架文档

Java爬虫框架，WebMagic 0.4.0 发布资讯

Java 爬虫框架，SeimiCrawler V0.2.5 发布资讯

Java 爬虫框架，WebMagic 0.4.1 发布资讯

Java 爬虫框架：seimicrawler v0.2.7 发布资讯

Java 爬虫框架，SeimiCrawler v0.2.6 发布资讯

Java爬虫框架，WebMagic 0.5.3 版本发布资讯

JLiteSpider：轻量级的分布式 Java 爬虫框架经验

Scrapy 示例 - Web 爬虫框架经验

Java网络编程文档

Java 网络爬虫框架的相关搜索