Python 爬虫:用 Scrapy 框架实现漫画的爬取

npew1829 8年前
   <p style="text-align:center"><img src="https://simg.open-open.com/show/f2c8402a7cd169a2476737085368cd78.jpg"></p>    <p style="text-align:center">14.jpg</p>    <p>在之前一篇 抓取漫画图片的文章 里,通过实现一个简单的Python程序,遍历所有漫画的url,对请求所返回的html源码进行正则表达式分析,来提取到需要的数据。</p>    <p>本篇文章,通过 <strong>scrapy</strong> 框架来实现相同的功能。 <strong>scrapy</strong> 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。</p>    <h2>scrapy环境配置</h2>    <h3>安装</h3>    <p>首先是 <strong>scrapy</strong> 的安装,博主用的是Mac系统,直接运行命令行:</p>    <pre>  <code class="language-python">pip install Scrapy</code></pre>    <p>对于html节点信息的提取使用了 <strong>Beautiful Soup</strong> 库,大概的用法可见 之前的一篇文章 ,直接通过命令安装:</p>    <pre>  <code class="language-python">pip install beautifulsoup4</code></pre>    <p>对于目标网页的 <strong>Beautiful Soup</strong> 对象初始化需要用到 <strong>html5lib</strong> 解释器,安装的命令:</p>    <pre>  <code class="language-python">pip install html5lib</code></pre>    <p>安装完成后,直接在命令行运行命令:</p>    <pre>  <code class="language-python">scrapy</code></pre>    <p>可以看到如下输出结果,这时候证明scrapy安装完成了。</p>    <pre>  <code class="language-python">Scrapy 1.2.1 - no active project    Usage:    scrapy <command> [options] [args]    Available commands:    bench         Run quick benchmark test    commands          fetch         Fetch a URL using the Scrapy downloader    genspider     Generate new spider using pre-defined templates    runspider     Run a self-contained spider (without creating a project)    settings      Get settings values    ...</code></pre>    <h3>项目创建</h3>    <p>通过命令行在当前路径下创建一个名为 <strong>Comics</strong> 的项目</p>    <pre>  <code class="language-python">scrapy startproject Comics</code></pre>    <p>创建完成后,当前目录下出现对应的项目文件夹,可以看到生成的 Comics 文件结构为:</p>    <pre>  <code class="language-python">|____Comics  | |______init__.py  | |______pycache__  | |____items.py  | |____pipelines.py  | |____settings.py  | |____spiders  | | |______init__.py  | | |______pycache__  |____scrapy.cfg</code></pre>    <p>Ps. 打印当前文件结构命令为:</p>    <pre>  <code class="language-python">find . -print | sed -e 's;{FNXX==XXFN}*/;|____;g;s;____|; |;g'</code></pre>    <p>每个文件对应的具体功能可查阅官方文档,本篇实现对这些文件涉及不多,所以按下不表。</p>    <h3>创建Spider类</h3>    <p>创建一个用来实现具体爬取功能的类,我们所有的处理实现都会在这个类中进行,它必须为 scrapy.Spider 的子类。</p>    <p>在 Comics/spiders 文件路径下创建 comics.py 文件。</p>    <p>comics.py 的具体实现:</p>    <pre>  <code class="language-python">#coding:utf-8    import scrapy    class Comics(scrapy.Spider):        name = "comics"        def start_requests(self):          urls = ['http://www.xeall.com/shenshi']          for url in urls:              yield scrapy.Request(url=url, callback=self.parse)        def parse(self, response):          self.log(response.body);</code></pre>    <p>自定义的类为 scrapy.Spider 的子类,其中的 name 属性为该爬虫的唯一标识,作为scrapy爬取命令的参数。其他方法的属性后续再解释。</p>    <h3>运行</h3>    <p>创建好自定义的类后,切换到 Comics 路径下,运行命令,启动爬虫任务开始爬取网页。</p>    <pre>  <code class="language-python">scrapy crawl comics</code></pre>    <p>打印的结果为爬虫运行过程中的信息,和目标爬取网页的html源码。</p>    <pre>  <code class="language-python">2016-11-26 22:04:35 [scrapy] INFO: Scrapy 1.2.1 started (bot: Comics)  2016-11-26 22:04:35 [scrapy] INFO: Overridden settings: {'ROBOTSTXT_OBEY': True, 'BOT_NAME': 'Comics', 'NEWSPIDER_MODULE': 'Comics.spiders', 'SPIDER_MODULES': ['Comics.spiders']}  2016-11-26 22:04:35 [scrapy] INFO: Enabled extensions:  ['scrapy.extensions.corestats.CoreStats',   'scrapy.extensions.telnet.TelnetConsole',   'scrapy.extensions.logstats.LogStats']   ...</code></pre>    <p>此时,一个基本的爬虫创建完成了,下面是具体过程的实现。</p>    <h2>爬取漫画图片</h2>    <h3>起始地址</h3>    <p>爬虫的起始地址为:</p>    <pre>  <code class="language-python">http://www.xeall.com/shenshi</code></pre>    <p>我们主要的关注点在于页面中间的漫画列表,列表下方有显示页数的控件。如下图所示</p>    <p><img src="https://simg.open-open.com/show/f8b239c73122bdbbc0a394d4a9ba4094.jpg"></p>    <p style="text-align:center">1.jpg</p>    <p>爬虫的主要任务是爬取列表中每一部漫画的图片,爬取完当前页后,进入下一页漫画列表继续爬取漫画,依次不断循环直至所有漫画爬取完毕。</p>    <p>起始地址的 url 我们放在了 start_requests 函数的 urls 数组中。其中 start_requests 是重载了父类的方法,爬虫任务开始时会执行到这个方法。</p>    <p>start_requests 方法中主要的执行在这一行代码:请求指定的 url ,请求完成后调用对应的回调函数 self.parse</p>    <pre>  <code class="language-python">scrapy.Request(url=url, callback=self.parse)</code></pre>    <p>对于之前的代码其实还有另一种实现方式:</p>    <pre>  <code class="language-python">#coding:utf-8    import scrapy    class Comics(scrapy.Spider):        name = "comics"      start_urls = ['http://www.xeall.com/shenshi']        def parse(self, response):          self.log(response.body);</code></pre>    <p>start_urls 是框架中提供的属性,为一个包含目标网页url的数组,设置了 start_urls 的值后,不需要重载 start_requests 方法,爬虫也会依次爬取 start_urls 中的地址,并在请求完成后自动调用 parse 作为回调方法。</p>    <p>不过为了在过程中方便调式其它的回调函数,demo中还是使用了前一种实现方式。</p>    <h3>爬取漫画url</h3>    <p>从起始网页开始,首先我们要爬取到每一部漫画的url。</p>    <p>当前页漫画列表</p>    <p>起始页为漫画列表的第一页,我们要从当前页中提取出所需信息,动过实现回调 parse 方法。</p>    <p>在开头导入 BeautifulSoup 库</p>    <pre>  <code class="language-python">from bs4 import BeautifulSoup</code></pre>    <p>请求返回的 <strong>html</strong> 源码用来给 BeautifulSoup 初始化。</p>    <pre>  <code class="language-python">def parse(self, response):      content = response.body;      soup = BeautifulSoup(content, "html5lib")</code></pre>    <p>初始化指定了 html5lib 解释器,若没安装这里会报错。BeautifulSoup初始化时若不提供指定解释器,则会自动使用自认为匹配的最佳解释器,这里有个坑,对于目标网页的源码使用默认最佳解释器为 lxml ,此时解析出的结果会有问题,而导致无法进行接下来的数据提取。所以当发现有时候提取结果又问题时,打印 soup 看看是否正确。</p>    <p>查看html源码可知,页面中显示漫画列表的部分为类名为 listcon 的 ul 标签,通过 listcon 类能唯一确认对应的标签</p>    <p><img src="https://simg.open-open.com/show/11645ab5c4c68fe708518b79db9f3796.jpg"></p>    <p style="text-align:center">2.jpg</p>    <p>提取包含漫画列表的标签</p>    <pre>  <code class="language-python">listcon_tag = soup.find('ul', class_='listcon')</code></pre>    <p>上面的 find 方法意为寻找 class 为 listcon 的 ul 标签,返回的是对应标签的所有内容。</p>    <p>在列表标签中查找所有拥有 href 属性的 a 标签,这些 a 标签即为每部漫画对应的信息。</p>    <pre>  <code class="language-python">com_a_list = listcon_tag.find_all('a', attrs={'href': True})</code></pre>    <p>然后将每部漫画的 href 属性合成完整能访问的url地址,保存在一个数组中。</p>    <pre>  <code class="language-python">comics_url_list = []  base = 'http://www.xeall.com'      for tag_a in com_a_list:          url = base + tag_a['href']          comics_url_list.append(url)</code></pre>    <p>此时 comics_url_list 数组即包含当前页每部漫画的url。</p>    <p>下一页列表</p>    <p>看到列表下方的选择页控件,我们可以通过这个地方来获取到下一页的url。</p>    <p><img src="https://simg.open-open.com/show/5fac7ffe0700d6c9ea92a81700931ff7.jpg"></p>    <p style="text-align:center">3.jpg</p>    <p>获取选择页标签中,所有包含 href 属性的 a 标签</p>    <pre>  <code class="language-python">page_tag = soup.find('ul', class_='pagelist')  page_a_list = page_tag.find_all('a', attrs={'href': True})</code></pre>    <p>这部分源码如下图,可看到,所有的 a 标签中,倒数第一个代表末页的url,倒数第二个代表下一页的url,因此,我们可以通过取 page_a_list 数组中倒数第二个元素来获取到下一页的url。</p>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/8589528e5418fe021ff1117360c7ac9f.jpg"></p>    <p style="text-align:center">5.jpg</p>    <p>但这里需要注意的是,若当前为最后一页时,不需要再取下一页。那么如何判断当前页是否是最后一页呢?</p>    <p>可以通过 select 控件来判断。通过源码可以判断,当前页对应的 option 标签会具有 selected 属性,下图为当前页为第一页</p>    <p><img src="https://simg.open-open.com/show/ce2e17c4d775fb7b3eb8a2b902bd39af.jpg"></p>    <p style="text-align:center">4.jpg</p>    <p>下图为当前页为最后一页</p>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/21e1622fa5084a3a1ec86d18b1f3a8ac.jpg"></p>    <p style="text-align:center">6.jpg</p>    <p>通过当前页数与最后一页页数做对比,若相同则说明当前页为最后一页。</p>    <pre>  <code class="language-python">select_tag = soup.find('select', attrs={'name': 'sldd'})  option_list = select_tag.find_all('option')    last_option = option_list[-1]  current_option = select_tag.find('option' ,attrs={'selected': True})    is_last = (last_option.string == current_option.string)</code></pre>    <p>当前不为最后一页,则继续对下一页做相同的处理,请求依然通过回调 parse 方法做处理</p>    <pre>  <code class="language-python">if not is_last:      next_page = 'http://www.xeall.com/shenshi/' + page_a_list[-2]['href']      if next_page is not None:          print('\n------ parse next page --------')          print(next_page)          yield scrapy.Request(next_page, callback=self.parse)</code></pre>    <p>通过同样的方式依次处理每一页,直到所有页处理完成。</p>    <h3>爬取漫画图片</h3>    <p>在 parse 方法中提取到当前页的所有漫画url时,就可以开始对每部漫画进行处理。</p>    <p>在获取到 comics_url_list 数组的下方加上下面代码:</p>    <pre>  <code class="language-python">for url in comics_url_list:      yield scrapy.Request(url=url, callback=self.comics_parse)</code></pre>    <p>对每部漫画的url进行请求,回调处理方法为 self.comics_parse , comics_parse 方法用来处理每部漫画,下面为具体实现。</p>    <p>当前页图片</p>    <p>首相将请求返回的源码构造一个 BeautifulSoup ,和前面基本一致</p>    <pre>  <code class="language-python">def comics_parse(self, response):      content = response.body;      soup = BeautifulSoup(content, "html5lib")</code></pre>    <p>提取选择页控件标签,页面显示和源码如下所示</p>    <p><img src="https://simg.open-open.com/show/f6be52d3ae09b9807abad621c5895c31.jpg"></p>    <p style="text-align:center">7.jpg</p>    <p><img src="https://simg.open-open.com/show/2a6c3f1fc1f40e52d75b83969148cd99.jpg"></p>    <p style="text-align:center">8.jpg</p>    <p>提取 class 为 pagelist 的 ul 标签</p>    <pre>  <code class="language-python">page_list_tag = soup.find('ul', class_='pagelist')</code></pre>    <p>查看源码可以看到当前页的 li 标签的 class 属性 thisclass ,以此获取到当前页页数</p>    <pre>  <code class="language-python">current_li = page_list_tag.find('li', class_='thisclass')  page_num = current_li.a.string</code></pre>    <p>当前页图片的标签和对应源码</p>    <p><img src="https://simg.open-open.com/show/921fc72c4dc74c4a896fd110b13c2c02.jpg"></p>    <p style="text-align:center">9.jpg</p>    <p><img src="https://simg.open-open.com/show/6f7ca1b7c1e88860b1109f30430a2011.jpg"></p>    <p style="text-align:center">10.jpg</p>    <p>获取当前页图片的url,以及漫画的标题。漫画标题之后用来作为存储对应漫画的文件夹名称。</p>    <pre>  <code class="language-python">li_tag = soup.find('li', id='imgshow')  img_tag = li_tag.find('img')    img_url = img_tag['src']  title = img_tag['alt']</code></pre>    <p>保存到本地</p>    <p>当提取到图片url时,便可通过url请求图片并保存到本地</p>    <pre>  <code class="language-python">self.save_img(page_num, title, img_url)</code></pre>    <p>定义了一个专门用来保存图片的方法 save_img ,具体完整实现如下</p>    <pre>  <code class="language-python"># 先导入库  import os  import urllib  import zlib    def save_img(self, img_mun, title, img_url):      # 将图片保存到本地      self.log('saving pic: ' + img_url)        # 保存漫画的文件夹      document = '/Users/moshuqi/Desktop/cartoon'        # 每部漫画的文件名以标题命名      comics_path = document + '/' + title      exists = os.path.exists(comics_path)      if not exists:          self.log('create document: ' + title)          os.makedirs(comics_path)        # 每张图片以页数命名      pic_name = comics_path + '/' + img_mun + '.jpg'        # 检查图片是否已经下载到本地,若存在则不再重新下载      exists = os.path.exists(pic_name)      if exists:          self.log('pic exists: ' + pic_name)          return        try:          user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'          headers = { 'User-Agent' : user_agent }            req = urllib.request.Request(img_url, headers=headers)          response = urllib.request.urlopen(req, timeout=30)            # 请求返回到的数据          data = response.read()            # 若返回数据为压缩数据需要先进行解压          if response.info().get('Content-Encoding') == 'gzip':              data = zlib.decompress(data, 16 + zlib.MAX_WBITS)            # 图片保存到本地          fp = open(pic_name, "wb")          fp.write(data)          fp.close            self.log('save image finished:' + pic_name)        except Exception as e:          self.log('save image error.')          self.log(e)</code></pre>    <p>函数主要用到3个参数,当前图片的页数,漫画的名称,图片的url。</p>    <p>图片会保存在以漫画名称命名的文件夹中,若不存在对应文件夹,则创建一个,一般在获取第一张图时需要自主创建一个文件夹。</p>    <p>document 为本地指定的文件夹,可自定义。</p>    <p>每张图片以 页数.jpg 的格式命名,若本地已存在同名图片则不再进行重新下载,一般用在反复开始任务的情况下进行判断以避免对已存在图片进行重复请求。</p>    <p>请求返回的图片数据是被压缩过的,可以通过 response.info().get('Content-Encoding') 的类型来进行判断。压缩过的图片要先经过 zlib.decompress 解压再保存到本地,否则图片打不开。</p>    <p>大体实现思路如上,代码中也附上注释了。</p>    <p>下一页图片</p>    <p>和在漫画列表界面中的处理方式类似,在漫画页面中我们也需要不断获取下一页的图片,不断的遍历直至最后一页。</p>    <p><img src="https://simg.open-open.com/show/b32bcc81a391e3dca710016befd9046b.jpg"></p>    <p style="text-align:center">11.jpg</p>    <p>当下一页标签的 href 属性为 # 时为漫画的最后一页</p>    <pre>  <code class="language-python">a_tag_list = page_list_tag.find_all('a')  next_page = a_tag_list[-1]['href']  if next_page == '#':      self.log('parse comics:' + title + 'finished.')  else:      next_page = 'http://www.xeall.com/shenshi/' + next_page      yield scrapy.Request(next_page, callback=self.comics_parse)</code></pre>    <p>若当前为最后一页,则该部漫画遍历完成,否则继续通过相同方式处理下一页</p>    <pre>  <code class="language-python">yield scrapy.Request(next_page, callback=self.comics_parse)</code></pre>    <h3>运行结果</h3>    <p>大体的实现基本完成,运行起来,可以看到控制台打印情况</p>    <p style="text-align: center;"><img src="https://simg.open-open.com/show/ea43fcb4a7bf26884c231dd16e0ff358.jpg"></p>    <p style="text-align:center">12.jpg</p>    <p>本地文件夹保存到的图片</p>    <p><img src="https://simg.open-open.com/show/d10ad398f4c13dde5a1cad26cb95a042.jpg"></p>    <p style="text-align:center">13.jpg</p>    <p>scrapy框架运行的时候使用了多线程,能够看到多部漫画是同时进行爬取的。</p>    <p>目标网站资源服务器感觉比较慢,会经常出现请求超时的情况。跑的时候请耐心等待。:)</p>    <h2>最后</h2>    <p>本文介绍的只是scrapy框架非常基本的用法,还有各种很细节的特性配置,如使用 FilesPipeline 、 ImagesPipeline 来保存下载的文件或者图片;框架本身自带了个 XPath 类用来对网页信息进行提取,这个的效率要比 BeautifulSoup 高;也可以通过专门的 item 类将爬取的数据结果保存作为一个类返回。</p>    <p> </p>    <p> </p>    <p>来自:http://www.jianshu.com/p/c1704b4dc04d</p>    <p> </p>