"开源:SinaSpider - 动态IP解决新浪的反爬虫机制"

virtuala 8年前
   <h2>SinaSpider</h2>    <p>动态IP解决新浪的反爬虫机制,快速抓取微博内容。</p>    <h2>Background</h2>    <p>抓取1000个公司(在companyList.py文件中)五年内相关的微博,进而统计评论数、转发数、点赞数等等。</p>    <h2>Environment</h2>    <ul>     <li>Python2.7</li>     <li>winxp服务器(通过某宝购买,关键是ADSL拨号功能,不然无法实现动态IP,也就解决不了新浪的反爬虫机制)</li>    </ul>    <h2>Results</h2>    <ul>     <li> <p>每个公司五年内的微博(通过sqlite3存储)</p> <p>下面截图为company0000.db的微博。</p> <p><img src="https://simg.open-open.com/show/c7851c67fa204ed33a87dd9b48fc9efd.png"></p> </li>     <li> <p>所有公司微博评论数、转发数、点赞数的统计(excel形式呈现)</p> </li>    </ul>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/4eed65641550f6c1aa14a61b029f7554.png"></p>    <p> </p>    <p> </p>    <p> </p>