Java爬虫框架,WebMagic 0.5.3 版本发布
jopen 9年前
webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。
以下是爬取oschina博客的一段代码:
1 2 | Spider.create( new SimplePageProcessor( "http://my.oschina.net/" , "http://my.oschina.net/*/blog/*" )).thread( 5 ).run(); |
webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试、自定义UA/cookie等功能。
webmagic包含强大的页面抽取功能,开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取,支持多个选择器链式调用。例如:
1 2 | String extractResult = Html.create(html).$( "div.body" ) .xpath( "//a/@href" ).regex( ".*blog.*" ).toString(); |
webmagic也可以很方便的作为一个模块,嵌入Java项目中运行。
时隔一年半,作者终于回归了。这个版本主要解决之前的一些BUG,后续会慢慢的继续完善功能。-
升级Xsoup到0.3.1,支持//div[contains(@id,'te')]语法。
-
#245 升级Jsoup到1.8.3,解决n-th selector二进制不兼容的问题。
-
#139 修复JsonFilePipeline保存路径的问题
-
#144 修复@TargetUrl增加SourceRegion后取不到链接的问题
-
#188 增加重试的间隔时间,默认为1秒 @edwardsbean
-
#193 修复分页功能MultiPagePipeline可能出现的并发问题 edwardsbean