我用爬虫一天“偷了”一百万用户,只为证明PHP是最好的语言
看了不少朋友圈里推荐的 Python 爬虫文章,都觉得太小儿科,处理内容本来就是 PHP 的强项,Python 唯一的好处估计也就天生的 Linux 自带,和 Perl 一样,这点觉得挺不够意思的 Linux,还是 Mac 厚道,天生就自带了 Python、Perl、PHP、Ruby,当然我也很讨厌讨论一门语言的好坏,每门语言存在就一定有它的道理,反正 PHP 是全世界最好用的语言,大家都懂的^_^
前几天比较火的是一个人用 C# 写了一个多线程爬虫程序,抓取了 QQ 空间 3000 万 QQ 用户,其中有 300 万用户是有 QQ 号、昵称、空间名称等信息的,也就是说,有详情也就 300 万,跑了两周,这没什么,为了证明 PHP 是全世界最好的语言,虽然大家都懂的^_^,我用 PHP 写了一个多进程爬虫程序,只用了一天时间,就抓了知乎 100 万用户,目前跑到第 8 圈(depth=8) 互相有关联(关注了和关注者)的用户。
爬虫程序设计:
因为知乎需要登录才能获取到关注者页面,所以从 chrome 登录之后把 cookie 拷贝下来给 curl 程序模拟登录。
使用两大独立循环进程组(用户索引进程组、用户详情进程组),用的是 php 的 pcntl 扩展,封装了一个非常好用的类,使用起来和 golang 的携程也差不多了。
下面是用户详情的截图,用户索引代码类似
这里插个题外话,经过测试,我的 8 核的 Macbook,跑 16 进程的速度最快,而 16 核的 Linux 服务器,居然是跑 8 进程最快,这点有点让我莫名其妙了,不过既然测试出最后进程数,就按照最后设置就好啦。
1、用户索引进程组先以一个用户为起点,抓取这个用户的关注了和关注者,然后合并入库,因为是多进程,所以当有两个进程在处理同一个用户入库的 时候就会出现重复的用户,所以数据库用户名字段一定要建立唯一索引,当然也可以用 redis 这些第三方缓存来保证原子性,这个就见仁见智了。
通过步骤一之后,我们就得到下面的用户列表:
2、用户详情进程组按照时间正序,拿到最先入库的用户抓取详情,并且把更新时间更新为当前时间,这样就可以变成一个死循环,程序可以无休止的跑,不断的循环更新用户信息。
程序稳定运行到第二天,突然没有新数据了,检查了一下发现知乎改规则了,不知是为了防我,还是碰巧,反正给我返回的数据是这样的
第一感觉就是胡乱给我输出数据让我采集不到,换了 IP、模拟伪装了些数据,都没用,突然感觉这个很熟悉,会不会是 gzip?抱着怀疑的态度,试了试 gzip,首先当然是告诉知乎不要给我 gzip 压缩过的数据
把 "Accept-Encoding: gzip,deflate\r\n"; 改成 "Accept-Encoding:deflate\r\n"; 去掉了 gzip,然并卵!
看来知乎是强制要给我 gzip 压缩数据了,既然如此,那我就解压呗,查了一下 php 解压 gzip,发现就一个函数 gzinflate,于是把获取到得内容加上:
$content = substr ($content, 10);
$content = gzinflate ($content));
这里我真想说,PHP 真的是全世界最好的语言,就两个函数,就彻底解决了问题,程序又欢快的跑起来了。
在匹配内容的时候,知乎的细心也是给了我无数的帮助,例如我要分清用户性别:
哈哈开玩笑的拉,其实是样式里面有 icon-profile-female 和 icon-profile-male ^_^
我蛋疼的抓了它那么多用户,到底有什么用呢?
其实没什么用,我就是闲的蛋疼 ^_^
有了这些信息,其实就可以做一些别人开头闭口就乱吹一通的大数据分析拉。
最常见的当然是:
1、性别分布
2、地域分布
3、职业分布
4、每个职业的男女比例
当然,按照关注人数、浏览人数、提问数、回答数等排序,看看人民都在关注什么,民生、社会、地理、政治,整个互联网都尽收眼底拉。。
也许,你还可以把头像拿来分析,用开源的验黄程序,把色情的筛选出来,然后去拯救东莞?
然后,你还可以看看那些大学出来的人,最后都干了什么。
有了这些数据,是不是可以打开脑洞!
下面是利用这些数据做出来的一些有趣的图表,实时图表数据可以去 http://www.epooll.com/zhihu/ 上看