Python爬取百度图片搜索结果

爬取百度图片搜索的图片，我们先需要分析其访问 URL，我们在搜索页面，比如搜索 “abc” ，打开 F12 调试，下拉结果页面页，查看网络请求，在其中我们可以找到这样一个请求

http://image.baidu.com/search/acjson?
tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=abc&
cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&word=abc&s=&se=&
tab=&width=&height=&face=&istype=&qc=&nc=1&fr=&pn=90&rn=30&gsm=5a&1534648263840=

可以看到 queryword 和 word 字段是我们的搜索关键词，
我们继续下拉可以发现

pn=120&rn=30
pn=150&rn=30
pn=180&rn=30
pn=210&rn=30
......

可以分析出 pn 是当前的位置，而 rn 是每次请求的记录数量，知道了这些就可以开始爬虫了：
完整的代码如下：

import urllib2
import re
import os

global totalCount
totalCount = 0

save_path = "D:\Python\img\BaiduDemo"
rn = 30
requestTotalNum = 70

user_agent = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) " \
                      "Chrome/55.0.2883.95 Safari/537.36 "
headers = {'User-Agent': user_agent}


def search(keyword):
    for i in range(0, requestTotalNum):
        url = get_search_url(keyword, i * rn)
        response = get_response(url).replace("\\", "")
        image_url_list = pick_image_urls(response)
        save(image_url_list)


def save(image_url_list):

    print "正在存储 " + str(len(image_url_list)) + "张，存储路径：" + save_path

    if not os.path.exists(save_path):
        os.makedirs(save_path)

    global totalCount

    for image in image_url_list:

        with open(save_path + "/%s.jpg" % str(totalCount), "wb") as p:
            try:
                req = urllib2.Request(image, headers=headers)
                img = urllib2.urlopen(req, timeout=10)
                p.write(img.read())
                p.close()
                totalCount += 1
            except Exception as e:
                print "Exception" + str(e) + image
                p.close()
                if os.path.exists("img/%s.jpg" % totalCount):
                    os.remove("img/%s.jpg" % totalCount)

    print "已存储 " + str(totalCount) + " 张图片"


def pick_image_urls(response):
    reg = r'"thumbURL":"(http://img[0-9]\.imgtn.*?)"'
    img_regex = re.compile(reg)
    img_list = re.findall(img_regex, response)
    return img_list


def get_response(url):
    page = urllib2.urlopen(url)
    return page.read()


def get_search_url(keyword, pn):
    return "http://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=" + \
           keyword + "&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=" + keyword + \
           "&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&pn=" + str(pn) + "&rn=" + str(rn) + \
           "&gsm=1000000001e&1486375820481="


search("abc")

运行结果：

正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 30 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 60 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 90 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 120 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 150 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 180 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 210 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 240 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 270 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 300 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 330 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 360 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 390 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 420 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 450 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 480 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 510 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 540 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 570 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 600 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 630 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 660 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 690 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 720 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 750 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 780 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 810 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 840 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 870 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 900 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 930 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 960 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 990 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1020 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1050 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1080 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1110 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1140 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1170 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1200 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1230 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1260 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1290 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1320 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1350 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1380 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1410 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1440 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1470 张图片
正在存储 30张，存储路径：D:\Python\img\BaiduDemo
已存储 1500 张图片
正在存储 17张，存储路径：D:\Python\img\BaiduDemo
已存储 1517 张图片
正在存储 0张，存储路径：D:\Python\img\BaiduDemo
已存储 1517 张图片
正在存储 0张，存储路径：D:\Python\img\BaiduDemo
已存储 1517 张图片
正在存储 0张，存储路径：D:\Python\img\BaiduDemo
...

另，试了很多次不同的关键词，好像百度图片搜索结果一般都是1500多张，这样的话设置请求数量为 1650 / 30 = 55 次就够用了，或者改下代码当请求读不到图了之后停止循环就行。

Python爬取百度图片搜索结果

猜你喜欢