Java爬虫框架，WebMagic 0.5.3 版本发布

webmagic的是一个无须配置、便于二次开发的爬虫框架，它提供简单灵活的API，只需少量代码即可实现一个爬虫。

以下是爬取oschina博客的一段代码：

1 2	`Spider.create(new` `SimplePageProcessor("http://my.oschina.net/",` `"http://my.oschina.net//blog/")).thread(5).run();`

webmagic采用完全模块化的设计，功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化)，支持多线程抓取，分布式抓取，并支持自动重试、自定义UA/cookie等功能。

webmagic包含强大的页面抽取功能，开发者可以便捷的使用css selector、xpath和正则表达式进行链接和内容的提取，支持多个选择器链式调用。例如：

1 2	`String extractResult = Html.create(html).$("div.body")` `.xpath("//a/@href").regex(".blog.").toString();`

webmagic也可以很方便的作为一个模块，嵌入Java项目中运行。

时隔一年半，作者终于回归了。这个版本主要解决之前的一些BUG，后续会慢慢的继续完善功能。