源网络爬虫 Snaker

fmms 13年前
     最近开发的一个通用网络爬虫平台,主要是想满足自己想从特定网站抓取大量内容的需求,有如下特点:    <br />    <br /> 1. 支持cookie/session,所以支持登录论坛和网站    <br /> 2. 支持图像识别,可以由人工识别或者机器识别    <br /> 3. 多线程下载,性能不错    <br /> 4. 支持代理    <br /> 5. 支持HTTPS和证书验证    <br /> 6. 支持可插拔脚本,对特别网站使用特别的脚本(javascript编写)。    <br /> 7. 有Web界面,操作方便    <br />    <br /> 项目位置:    <span style="font-family:Arial;font-size:9pt;"><a title="blocked::http://code.google.com/p/ssnaker/" href="/misc/goto?guid=4959500783661359192">http://code.google.com/p/ssnaker/</a></span>    <br /> 下载:    <span style="font-family:Arial;font-size:9pt;"><a title="blocked::http://ssnaker.googlecode.com/files/snaker_1.00_b6.zip" href="/misc/goto?guid=4959500783932438973">http://ssnaker.googlecode.com/files/snaker_1.00_b6.zip</a></span>    <br />    <br /> 最新的版本也实现一个火车票刷票的功能(具体实现都放在engines/train.js)    <br />    <br />    <div>     <p><span style="font-family:Arial;font-size:9pt;"><img title="test.jpg" border="0" alt="test.jpg" src="https://simg.open-open.com/show/cad89c9c02309865271b28fcee9b87f7.jpg" width="476" height="703" /><br /> </span></p>    </div>