开源项目,开源代码,开源文档,开源新闻,开源社区

重构了自己的新闻 App，数据来源是个问题。有前人分析了知乎日报、凤凰新闻等 API，根据相应的 URL 可以获取新闻的 JSON 数据。为了锻炼写代码能力，笔者打算爬虫新闻页面，自己获取数据构建 API。

KimO32 2016-02-08 238717 0

网络爬虫

P34

网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，

lijinfei 2011-08-16 8529 0

网络爬虫

Egg简介 Egg简单小巧，效率很高，速度很快，配置简单方便，接口简洁，适合多种数据访问方式。实测，在20M无线网下(隔了个墙，所以有时不稳定)速度稳定在1.2-2.5M/S,峰值可以达到3M.实测抓取百度百科，1000网页大概在

jopen 2015-08-23 9481 0

Egg 网络爬虫

P24

网络爬虫（Spider）Java实现原理收藏 “网络蜘蛛”或者说“网络爬虫”，是一种能访问网站并跟踪链接的程序，通过它，可快速地画出一个网站所包含的网页地图信息。本文主要讲述如何使用Java编程

aas211 2011-11-08 602 0

网络爬虫 Java

首先种子会被放入url队列中，然后爬取工人（fetchWorker）会从url队列中取url并爬取。然后爬到的页面在在page队列中，由抽取工人（extractWorker）从队列中取出并抽取信息。接着，抽取或者提炼出来

jopen 2013-07-11 25320 0

网络爬虫 goodcrawler

Crawler 又一个网络爬虫，可以支持代理服务器的科学上网爬取。 1.数据存在mysql当中。 2.使用时，先修改web-inf/config.ini的数据链接相关信息，主要是数据库名和用户名和密码

yne7 2015-03-30 17739 0

网络爬虫 kamike.collect

寒假开始学习一些简答的爬虫并且做一些有意义的事情。首先，百度一下爬虫的意思：网络爬虫：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的

jopen 2016-01-16 14461 0

网络爬虫 Java

P11

使用HTTPClient 的网络爬虫说到爬虫，使用Java本身自带的URLConnection可以实现一些基本的抓取页面的功能，但是对于一些比较高级的功能，比如重定向的处理，HTML标记的去除，仅

449077974 2016-09-07 1166 0

网络爬虫

一。用hadoop作网络爬虫的原因爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据，这个数据量一般是P byte级，至少也是T byte级，因此用

jopen 2013-12-26 84009 0

Hadoop 网络爬虫

最近开发的一个通用网络爬虫平台，主要是想满足自己想从特定网站抓取大量内容的需求，有如下特点： 1. 支持cookie/session，所以支持登录论坛和网站 2. 支持图像识别，可以由人工识别或者机器识别

fmms 2012-01-13 44404 0

爬虫网络爬虫

一个开源的JAVA爬虫，包含了一套爬虫的内核和一套完整的爬虫。内核具有很强的扩展性，用户可以在内核基础上开发自己想要的爬虫。源码中集成了Jsoup，可进行精准的网页解析。项目主页：

jopen 2014-07-20 30401 0

网络爬虫 WebCollector

0的发展，页面中的AJAX也越来越多。由于传统爬虫依靠静态分析，不能准确的抓取到页面中的AJAX请求以及动态更新的内容，已经越来越不能满足需求。基于动态解析的Web 2.0爬虫应运而生，通过浏览器内核解析页面源码

MickiBrinkm 2017-01-10 31492 0

PhantomJS Ajax 网络爬虫

BlueLeech是一个开源程序，它从指定的URL开始，搜索所有可用的链接，以及链接之上的链接。它在搜索的同时可以下载遇到的链接所指向的所有的或预定义的范围的内容。

jopen 2012-10-12 14887 0

BlueLeech 网络爬虫

WebLech URL Spider是一个功能强大的Web站点下载与镜像工具。它支持按功能需求来下载web站点并能够尽可能模仿标准Web浏览器的行为。WebLech有一个功能控制台并采用多线程操作。

jopen 2012-10-10 25657 0

爬虫网络爬虫

ItSucks是一个Java Web爬虫开源项目。可灵活定制，支持通过下载模板和正则表达式来定义下载规则。提供一个控制台和Swing GUI操作界面。功能特性: 多线程正则表达式保存/载入的下载工作

jopen 2012-10-12 44467 0

爬虫网络爬虫

JSpider是: 一个高度可配置和和可定制 Web爬虫 LGPL开源许可下开发 100％纯Java实现您可以使用它来：检查您网站的错误(内部服务器错误, ...) 传出或内部链接检查分析你网站的结构(创建一个sitemap

jopen 2012-10-13 22446 0

爬虫网络爬虫

今天公司有个需求，需要做一些指定网站查询后的数据的抓取，于是花了点时间写了个demo供演示使用。思想很简单：就是通过Java访问的链接，然后拿到html字符串，然后就是解析链接等需要的数据。技术上使用Jsou

jopen 2016-01-16 26758 0

Java开发

Arachnid是一个基于Java的web spider框架.它包含一个简单的HTML剖析器能够分析包含HTML内容的输入流.通过实现Arachnid的子类就能够开发一个简单的Web spiders并

jopen 2012-10-10 29192 0

爬虫网络爬虫

是一个业余时间开发的，支持多线程，支持关键字过滤，支持正文内容智能识别的爬虫。爬虫的核心实现在ScrapingSpider.Core程序集中。爬虫类为Spider类，爬虫的爬取逻辑，与页面处理逻辑通过事件分离，两个关键事件

jopen 2015-01-19 21009 0

网络爬虫 ScrapingSpider

的python绑定库实现一个dht网络爬虫，抓取dht网络中的磁力链接。 dht 网络简介 p2p网络在P2P网络中，通过种子文件下载资源时，要知道资源在P2P网络中哪些计算机中，这些传输资源的

jopen 2014-08-25 89774 0

Python 网络爬虫

Java实现爬虫给App提供数据（Jsoup 网络爬虫）经验

java网络爬虫实例文档

Java 网络爬虫：Egg 经验

网络爬虫Java实现原理文档

goodcrawler(web crawler) Java网络爬虫经验

Java网络爬虫：kamike.collect 经验

网络爬虫入门（一）经验

使用httpclient 的网络爬虫文档

基于hadoop 网络爬虫经验

源网络爬虫 Snaker 经验

JAVA爬虫：WebCollector 经验

浅谈动态爬虫与去重经验

Java网页爬虫：BlueLeech 经验

Java爬虫：WebLech URL Spider 经验

Java Web爬虫 - ItSucks 经验

JSpider - 高度灵活的Java爬虫经验

Java爬虫，信息抓取的实现经验

基于Java的web爬虫，Arachnid 经验

Java Web爬虫：ScrapingSpider 经验

Python开发的 dht网络爬虫经验

java网络爬虫爬取动态数据的相关搜索

关键词

Java实现爬虫给App提供数据（Jsoup 网络爬虫） 经验

java网络爬虫实例 文档

Java 网络爬虫：Egg 经验

网络爬虫Java实现原理 文档

goodcrawler(web crawler) Java网络爬虫 经验

Java网络爬虫：kamike.collect 经验

网络爬虫入门（一） 经验

使用httpclient 的网络爬虫 文档

基于hadoop 网络爬虫 经验

源网络爬虫 Snaker 经验

JAVA爬虫：WebCollector 经验

浅谈动态爬虫与去重 经验

Java网页爬虫：BlueLeech 经验

Java爬虫 ：WebLech URL Spider 经验

Java Web爬虫 - ItSucks 经验

JSpider - 高度灵活的Java爬虫 经验

Java爬虫，信息抓取的实现 经验

基于Java的web爬虫，Arachnid 经验

Java Web爬虫：ScrapingSpider 经验

Python开发的 dht网络爬虫 经验

java网络爬虫爬取动态数据 的相关搜索

关键词

Java实现爬虫给App提供数据（Jsoup 网络爬虫）经验

java网络爬虫实例文档

网络爬虫Java实现原理文档

goodcrawler(web crawler) Java网络爬虫经验

网络爬虫入门（一）经验

使用httpclient 的网络爬虫文档

基于hadoop 网络爬虫经验

浅谈动态爬虫与去重经验

Java爬虫：WebLech URL Spider 经验

JSpider - 高度灵活的Java爬虫经验

Java爬虫，信息抓取的实现经验

Python开发的 dht网络爬虫经验

java网络爬虫爬取动态数据的相关搜索