使用python 3实现的一个知乎内容的爬虫:zhihu_crawler

jopen 9年前

zhihu_crawler

使用python 3实现的一个知乎内容的爬虫,依赖requests、BeautifulSoup4。

功能

能够爬取以下内容:

  • 对于“问题”:标题、内容、关注人数、所在标签、所有回答(回答人、回答内容、赞数以及评论数)
  • 对于“用户”:提问数量、回答数量、获得的总赞数、被关注人数、关注的话题、关注的人

使用方法

需要在config.json里填上用户名以及密码,当程序运行时,登录时可能会需要输入验证码。

  • 对于“问题”
from zhihu_question import Question    qid = <qid>  # 问题id  q = Question(qid)  q.update()  # 获取信息  q.persist(open(str(qid)+'.json', 'w', encoding='utf-8'))  # 以json的格式存储下来

对于“用户”
from zhihu_person import Person    pid = '<pid>'  # 用户id  p = Person(pid)  p.update()  p.persist(open(str(pid)+'.json', 'w', encoding='utf-8'))  # 以json的格式存储下来

项目主页:http://www.open-open.com/lib/view/home/1442049261117