Java爬虫框架,WebMagic 0.5.3 版本发布

jopen 9年前

webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。

以下是爬取oschina博客的一段代码:

1
2
Spider.create(new SimplePageProcessor("http://my.oschina.net/",
"http://my.oschina.net/*/blog/*")).thread(5).run();

webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。

webmagic包含强大的页面抽取功能,开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。例如:

1
2
String extractResult = Html.create(html).$("div.body")
.xpath("//a/@href").regex(".*blog.*").toString();

webmagic也可以很方便的作为一个模块,嵌入Java项目中运行。

时隔一年半,作者终于回归了。这个版本主要解决之前的一些BUG,后续会慢慢的继续完善功能。
  • 升级Xsoup到0.3.1,支持//div[contains(@id,'te')]语法。

  • #245 升级Jsoup到1.8.3,解决n-th selector二进制不兼容的问题。

  • #139 修复JsonFilePipeline保存路径的问题

  • #144 修复@TargetUrl增加SourceRegion后取不到链接的问题

  • #157 修复FileCacheQueueScheduler中去重偶尔不工作的问题 @zhugw

  • #188 增加重试的间隔时间,默认为1秒 @edwardsbean

  • #193 修复分页功能MultiPagePipeline可能出现的并发问题 edwardsbean

  • #198 修正site.setHttpProxy()不起作用的bug @okuc

来自: http://www.oschina.net//news/70120/webmagic-0-5-3