源网络爬虫 Snaker
fmms
13年前
最近开发的一个通用网络爬虫平台,主要是想满足自己想从特定网站抓取大量内容的需求,有如下特点: <br /> <br /> 1. 支持cookie/session,所以支持登录论坛和网站 <br /> 2. 支持图像识别,可以由人工识别或者机器识别 <br /> 3. 多线程下载,性能不错 <br /> 4. 支持代理 <br /> 5. 支持HTTPS和证书验证 <br /> 6. 支持可插拔脚本,对特别网站使用特别的脚本(javascript编写)。 <br /> 7. 有Web界面,操作方便 <br /> <br /> 项目位置: <span style="font-family:Arial;font-size:9pt;"><a title="blocked::http://code.google.com/p/ssnaker/" href="/misc/goto?guid=4959500783661359192">http://code.google.com/p/ssnaker/</a></span> <br /> 下载: <span style="font-family:Arial;font-size:9pt;"><a title="blocked::http://ssnaker.googlecode.com/files/snaker_1.00_b6.zip" href="/misc/goto?guid=4959500783932438973">http://ssnaker.googlecode.com/files/snaker_1.00_b6.zip</a></span> <br /> <br /> 最新的版本也实现一个火车票刷票的功能(具体实现都放在engines/train.js) <br /> <br /> <div> <p><span style="font-family:Arial;font-size:9pt;"><img title="test.jpg" border="0" alt="test.jpg" src="https://simg.open-open.com/show/cad89c9c02309865271b28fcee9b87f7.jpg" width="476" height="703" /><br /> </span></p> </div>