Go开源爬虫软件,Pholcus 0.7.4 发布
jopen 9年前
Pholcus(幽灵蛛)是一款纯Go语言编写的重量级爬虫软件,清新的GUI界面,优雅的爬虫规则、可控的高并发、任意的批量任务、多种输出方式、大量Demo,支持横纵向两种抓取模式,支持模拟登录和任务取消等,并且考虑了支持分布式布局。
Pholcus 0.7.4 发布,更新如下:
-
Spider中添加Namespace func(*Spider) string与SubNamespace func(self *Spider, dataCell map[string]interface{}) string两个字段,实现自定义数据库、表单及文件的名称
-
简化数据库配置信息
-
mongodb输出中,将采集结果字段直接作为数据存储字段,便于检索
-
更新计时器等spider中公用方法
-
可通过DownloaderID指定下载器,其中phantomjs下载支持请求中定义js,用法Request.Temp["JS"]=js编码(请更新surfer下载器)
-
AddOutFeild(key)返回索引位置
-
增加输出统计报告的打印
-
提高被取消的请求删除去重记录的精确度
下载页面:v0.7.4