python网页抓取

jopen 11年前

python自带了urllib和urllib2模块，以及第三方的requests库来抓取网页，这里我们使用easy_install包管理工具下载 requests库，BeautifulSoup库，在CMD命令行下，切换到easy_install的目录，运行命令easy_install 包名称。

easy_install requests

安装好requests包之后，我们就可以选择使用urllib，urllib2或requests库来抓取网页了

1.网页内容的抓取

    #! /usr/bin/env python        #coding:utf-8        import urllib        import urllib2        import requests        import sys                url = 'http://www.csdn.net'                def urllib2Test():            req = urllib2.Request(url)            response = urllib2.urlopen(req)            thePage = response.read()                def requestsTest():            r = requests.get(url)            r.status_code            r.content            r.headers                def urllib2TestEx(url):            req = urllib2.Request(url)            try:                response = urllib2.urlopen(req)                content = response.read()            except urllib2.URLError,e:                print e.reason                def urlhttperror(url):            req = urllib2.Request(url)            try:urllib2.urlopen(req)                    except urllib2.HTTPError,e:                print e.read()                        if __name__ == '__main__':            urllib2Test()            requestsTest()            urllib2TestEx(url)            urlhttperror(url)

</div> </div>

2.爬虫伪装成浏览器的访问

在访问一些网站时，会出现HTTPError: HTTP Error 403: Forbidden这样的异常，这是由于现在有些网站禁止爬虫访问，爬虫会带来服务器上的负担，爬虫和浏览器发出的http请求区别在于：当用户发送一个http请求的时候，浏览的的版本信息也包含在了http请求信息中，而爬虫就不包含头信息，当服务器端收到一个页面访问请求时,如果不知道发送这个请求使用的浏览器,操作系统,硬件平台等信息,这些信息在HTTP协议的中的一个字段User-agent中，缺失这些信息，服务器会认为这些请求是非正常的访问，我们用 Fiddler工具就可以看到浏览器的请求的信息.

对于禁止爬虫的网站，可以伪装成浏览器访问,在请求中加入UserAgent的信息。

添加和修改

headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}

req = urllib2.Request("http://blog.csdn.net/nevasun", headers=headers)

伪装成浏览器访问如下

#! /usr/bin/env python    #coding:utf-8        import requests    from BeautifulSoup import BeautifulSoup    from os.path import dirname, abspath    import sys    import os        #PREFIX = dirname(abspath(__file__))        ## 这段代码是用于解决中文报错的问题      reload(sys)      sys.setdefaultencoding("utf8")      #####################################################                 defaultWaitTime = 1        def getHtmlContent(url):        global defaultWaitTime        content = None        retry = 0        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.57 Safari/537.36'}        AccessFrequency = defaultWaitTime        while retry < 5:            try:                r = requests.get(url,timeout=10,headers=headers)                content = r.content                return content            except:                retry+=1                time.sleep(AccessFrequency)        return content    def Test():        content = getHtmlContent("http://blog.csdn.net/figo829/article/details/18015537")    #   print content        if __name__ == '__main__':        Test()

</div> </div> 来自：http://blog.csdn.net/figo829/article/details/18155925

python网页抓取

1.网页内容的抓取

2.爬虫伪装成浏览器的访问

相关经验

目录