Python爬虫实践 —— 8.百度情侣头像贴吧头像图片爬取（lxml+urllib.request）

爬图片的demo，又是老朋友百度贴吧，只是加入了lxml清洗html，获得二级页面href，从二级页面爬img。之前的demo已经练习过lxml特别是etree用法，就不再赘述了。

代码如下：

# 情侣头像爬虫
import urllib.parse
import urllib.request
from lxml import etree


class HeadPortraitSpider(object):
    def __init__(self):
        self.tiebaName = "情侣头像"
        self.beginPage = 1
        self.endPage = 2
        self.url = "http://tieba.baidu.com/f?"
        self.ua_header = {"User-Agent": "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;"}
        self.index = 1

    # 构造url
    def tiebaSpider(self):
        print("开始爬取")
        for page in range(self.beginPage, self.endPage + 1):
            print("获取拼接网址")
            pn = (page - 1) * 50
            wo = {'pn': pn, 'kw': self.tiebaName}
            word = urllib.parse.urlencode(wo)
            myurl = self.url + word
            self.loadPage(myurl)

    # 爬取页面内容
    def loadPage(self, url):
        print("获取内容页")
        req = urllib.request.Request(url, headers=self.ua_header)
        data = urllib.request.urlopen(req).read()

        html = etree.HTML(data)
        links = html.xpath('//div[@class="threadlist_lz clearfix"]/div/a/@href')

        for link in links:
            link = "http://tieba.baidu.com" + link
            self.loadImages(link)

    # 爬取帖子详情页，获得图片的链接
    def loadImages(self, link):
        print("获取图片链接")
        req = urllib.request.Request(link, headers=self.ua_header)
        data = urllib.request.urlopen(req).read()
        html = etree.HTML(data)
        links = html.xpath('//img[@class="BDE_Image"]/@src')
        for link in links:
            self.writeImages(link)

    # 通过图片所在链接，爬取图片并保存图片到本地：
    def writeImages(self, images_Link):
        print("正在存储图片：", self.index, "....")

        image = urllib.request.urlopen(images_Link).read()

        # 保存图片到本地
        file = open("H:\\情侣头像\\" + str(self.index) + ".jpg", "wb+")
        file.write(image)
        file.close()

        self.index += 1


if __name__ == '__main__':
    mySpider = HeadPortraitSpider()
    mySpider.tiebaSpider()