开源项目,开源代码,开源文档,开源新闻,开源社区

天生分布式。支持集群动态扩、缩容精准解析。解析脚本化，支持Groovy, Javascript, python 支持的去重方式：redis, mongodb, ehcache, 内存支持的队列： redis

jopen 2015-12-24 9809 0

myspider 网络爬虫

简书助手一个爬虫，可以用来爬取简书的文章，并生成EPUB格式。用法首先到官网下载并安装node.js。 git clone https://github.com/wizardforcel/jianhelper

jopen 2016-01-25 8615 0

网络爬虫 jianhelper - CSS - GitHub

常见的反爬虫这几天在爬一个网站，网站做了很多反爬虫工作，爬起来有些艰难，花了一些时间才绕过反爬虫。在这里把我写爬虫以来遇到的各种反爬虫策略和应对的方法总结一下。从功能上来讲，爬虫一般分为数

saiboa 2016-01-22 15843 0

Ajax 网络爬虫

爬虫关键步骤都围绕在于请求、获取数据、处理数据，当然还有应对一些反爬虫的策略，比如伪造headers，ip代理等等，下文就主要围绕nodejs我常用的模块和经验谈起请求和获取数据模块

AnyaUJVI 2016-10-31 13125 0

Node.js Node.js 开发

目前版本2.0.3，这个版本不再需要使用typings命令了。但是vscode捆绑的版本是1.8的，需要一些配置工作，看本文的处理办法。

t554in32 2016-10-31 31134 0

TypeScript mongoose

网络爬虫第一个要面临的问题，就是如何抓取网页，抓取其实很容易，没你想的那么复杂，一个开源 HtmlUnit 包，4行代码就OK啦，例子如下： 1 2 3 4 final WebClient webClient=

jopen 2013-11-29 81145 0

爬虫网络爬虫

发送到项目管道，并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法，同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

jopen 2013-07-29 18131 0

Scrapy 网络爬虫

Another Simple Crawler 又一个网络爬虫，可以支持代理服务器的科学上网爬取。 1.数据存在mysql当中。 2.使用时，先修改web-inf/config.ini的数据链接相关信息，主要是数据库名和用户名和密码

yne7 2015-03-30 17739 0

网络爬虫 kamike.collect

Pholcus（幽灵蛛）是一款纯Go语言编写的重量级爬虫软件，清新的GUI界面，优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo，支持横纵向两种抓取模式，支持模拟登录和任务取消等，并且考虑了支持分布式布局。

6d6d 2015-07-14 7054 0

Pholcus

P23

通过本文，读者可以了解 Heritrix 的相关特点以及在 Eclipse 中的配置运行，能够从零开始构建特定站点的专有爬虫，从而为网站增加全文检索服务。背景随着网站内容的增加，为其添加搜索功能是一个常见的需求，搜索引

sunhaiyang 2011-09-19 527 0

网络爬虫

RQ ( Redis Queue ) 是一个简单的 Python 库用于将作业放到队列中并在后台统一执行，使用 Redis 做后端，可方便的跟 Web 前端集成。示例代码： import requests

openkk 2012-05-20 33466 0

Python Python开发

在宣传海报上，Python 之父 Guido van Rossum 在 EuroPython 2015 会议的发言分为讲话稿和现场问答部分，但是他上台后将全程改为现场问答的形式。他在回答现场观众的问题

jopen 2015-08-19 36504 0

Python

你做的第一个爬虫是用来干嘛的？嘘！小点声告诉我，我不会告诉别人的哦！今天小编收集了6篇关于Python爬虫技术的干货文章，赶紧来看看吧！一、【Python爬虫文章汇总】

17dian 2016-01-09 20060 0

程序员软件开发 Python 爬虫 C/C++

Python DBUtils 提供了稳固的、持久的到数据库的连接池，支持多线程应用环境。该项目支持 DB-API 2 兼容数据库接口以及传统的 PyGreSQL 接口。下图是 DB-API 2 的接口结构图

jopen 2012-10-17 58705 0

Python 数据库连接池

有关python的脚本、技巧、教程、算法和一堆有意思的东东，大部分是IPython Notebook形式提供。 // Python tips and tutorials // Python and

jopen 2015-01-27 29021 0

Python Python开发

python-memcached 是 python 语言操作 memcached 缓存服务器的接口。 memcached 是一套分布式的快取系统，当初是Danga Interactive为了L

jopen 2011-12-25 47565 0

缓存组件 Python

本来我一直不知道怎么来更好地优化网页的性能，然后最近做python和php同类网页渲染速度比较时，意外地发现一个很简单很白痴但是我一直没发现的好方法（不得不BS我自己）：直接像某些php应用比如Di

wn25 2015-01-05 18516 0

Python Python开发

英文原文： Python 3 is killing Python Python 3 毫不费力地成为发生在 Python 社区里最糟糕的事。我还记得第一次使用 Python 的时候，我还在花大量时间在

jopen 2014-06-03 48784 0

Python

python-adb 是 Python 的 ADB + Fastboot 实现。python-adb 包括一个纯 Python 实现的 ADB 和 Fastboot 协议，使用 libusb1 进行 USB

d3fw 2015-04-28 30015 0

Python开发 python-adb

采用纯Python编写的SNMP v1/v2c/v3引擎和应用。特性：完整 SNMPv1/v2c 和 SNMPv3 引擎支持可以充当管理者和/或代理角色管理者和代理端的MIB支持异步操作支持

jopen 2013-08-17 32331 0

SNMP Python开发

世界领先的数据爬虫 :myspider 经验

jianhelper - :beetle: 一个爬虫经验

常见的反爬虫和应对方法经验

nodejs 爬虫相关模块小整合经验

用TypeScript开发爬虫程序经验

爬虫的自我解剖(抓取网页HtmlUnit) 经验

爬虫Scrapy的架构介绍经验

Java网络爬虫：kamike.collect 经验

Pholcus 0.4.8 发布，Go 爬虫软件资讯

Heritrix Web爬虫配置使用文档

Python队列服务 Python RQ 经验

Python 之父谈 Python 资讯

【同行说技术】爬虫学习汇总：Python程序员从小白到大神必读资料汇总(二) 问答

Python的连接池 - Python DBUtils 经验

python_reference - Python资源汇总经验

python语言memcached接口 python-memcached 经验

为Python加速 - python+memcached 经验

Python 3 正在毁灭 Python 资讯

Python 的 ADB + Fastboot 实现：python-adb 经验

SNMP的纯Python实现：SNMP library for Python 经验

python爬虫的相关搜索

关键词

世界领先的数据爬虫 :myspider 经验

jianhelper - :beetle: 一个爬虫 经验

常见的反爬虫和应对方法 经验

nodejs 爬虫相关模块小整合 经验

用TypeScript开发爬虫程序 经验

爬虫的自我解剖(抓取网页HtmlUnit) 经验

爬虫Scrapy的架构介绍 经验

Java网络爬虫：kamike.collect 经验

Pholcus 0.4.8 发布，Go 爬虫软件 资讯

Heritrix Web爬虫配置使用 文档

Python队列服务 Python RQ 经验

Python 之父谈 Python 资讯

【同行说技术】爬虫学习汇总：Python程序员从小白到大神必读资料汇总(二) 问答

Python的连接池 - Python DBUtils 经验

python_reference - Python资源汇总 经验

python语言memcached接口 python-memcached 经验

为Python加速 - python+memcached 经验

Python 3 正在毁灭 Python 资讯

Python 的 ADB + Fastboot 实现：python-adb 经验

SNMP的纯Python实现：SNMP library for Python 经验

python爬虫 的相关搜索

关键词

jianhelper - :beetle: 一个爬虫经验

常见的反爬虫和应对方法经验

nodejs 爬虫相关模块小整合经验

用TypeScript开发爬虫程序经验

爬虫Scrapy的架构介绍经验

Pholcus 0.4.8 发布，Go 爬虫软件资讯

Heritrix Web爬虫配置使用文档

python_reference - Python资源汇总经验

python爬虫的相关搜索