"开源:SinaSpider - 动态IP解决新浪的反爬虫机制"
virtuala
8年前
<h2>SinaSpider</h2> <p>动态IP解决新浪的反爬虫机制,快速抓取微博内容。</p> <h2>Background</h2> <p>抓取1000个公司(在companyList.py文件中)五年内相关的微博,进而统计评论数、转发数、点赞数等等。</p> <h2>Environment</h2> <ul> <li>Python2.7</li> <li>winxp服务器(通过某宝购买,关键是ADSL拨号功能,不然无法实现动态IP,也就解决不了新浪的反爬虫机制)</li> </ul> <h2>Results</h2> <ul> <li> <p>每个公司五年内的微博(通过sqlite3存储)</p> <p>下面截图为company0000.db的微博。</p> <p><img src="https://simg.open-open.com/show/c7851c67fa204ed33a87dd9b48fc9efd.png"></p> </li> <li> <p>所有公司微博评论数、转发数、点赞数的统计(excel形式呈现)</p> </li> </ul> <p style="text-align: center;"><img src="https://simg.open-open.com/show/4eed65641550f6c1aa14a61b029f7554.png"></p> <p> </p> <p> </p> <p> </p>