世界领先的数据爬虫 :myspider

jopen 9年前

功能

  • 用户友好,一个管控界面解决全部问题
  • 新站点抓取无需重新部署
  • 天生分布式。支持集群动态扩、缩容
  • 精准解析。解析脚本化,支持Groovy, Javascript, python
  • 支持的去重方式:redis, mongodb, ehcache, 内存
  • 支持的队列: redis, mongodb(可靠抓取), ehcache, 内存
  • 支持伪分布式:一台机器模拟集群。
  • 支持大集群虚拟分组功能:隔离故障,降低维护成本。
  • 模块化:方便地使用脚本在运行时控制proxy,http header, url
  • 直接对接maven库,让部署新任务自动化、规范化
  • 分布式自动调度:无论单机还是多机都提供可靠的调度。不重复,不遗漏。
  • 提供低资源占用的js动态渲染解决方案:抓取ajax内容从此简单。
  • 增量抓取功能:新闻,股票,竞品数据...
  • 多页面数据合并功能:一条完整数据横跨几个页面?没关系!
  • 分页抓取功能,毫无乱序。
  • 提供辅助功能,利用机器学习实现无解析化抓取(实验特性)
  • 提供多种数据持久化策略:无论您想直接保存在db,还是希望实时处理,想要的都可以满足。
  • 登录:你懂的。
  • 验证码破解服务:你懂的,不罗嗦。
  • 提供多种变幻莫测的代理策略:当然你只需要管控界面上动动鼠标。
  • 解析太头疼?看看解析工具里的武器。表格,列表只需一条语句。
  • OCR太深奥?我都给你包好了,绝不放过任何一条数据。

运行

以IDEA为例,导入工程。新建一个run Configuration, 选择gradle 然后就可以run或者debug。

项目主页:http://www.open-open.com/lib/view/home/1450965751058