爬虫—分析Ajax爬取今日头条图片

　　以今日头条为例分析Ajax请求抓取网页数据。本次抓取今日头条的街拍关键字对应的图片，并保存到本地

一，分析

　　打开今日头条主页，在搜索框中输入街拍二字，打开开发者工具，发现浏览器显示的数据不在其源码里面。这样可以出初步判断这些内容是由

Ajax加载，然后使用JavaScript渲染出来的。

　　切换到XHR过滤选项卡，查看其Ajax请求。点击其中一条进去，进入data展开，发现其中一个title字段对应的值正好是页面中的某条数据的标题。再查看其他数据，正好也是一一对应的，这说明这些数据确实是由Ajax加载的。

　　本次的目的是抓取其中的图片内容，data中每个元素就是一篇文章，元素中的image_list字段包含了该文章的图片内容。它是一个列表形式，包含了所有的图片列表。我们只需要将列表中的url字段下载下来就好了，每篇文章都创建一个文件夹，文件夹名称即文章标题。

　　在使用Python爬取之前还需要分析一下URL的规律。切换到Headers选项卡，查看Headers信息。可以看到，这是一个GET请求，请求的参数有aid，app_name，offset，format，keyword，autoload，count，en_qc，cur_tab，from，pd，timestamp。继续往下滑动，多加载一些数据，找出其中的规律。

　　经过观察，可以发现变化的参数只有offset，timestamp。第一次请求的offset的值为0，第二次为20，第三次为40，key推断出这个offset就是偏移量，count为每次请求的数据量，而timestamp为时间戳。这样一来，我们就可以使用offset参数控制分页了，通过模拟Ajax请求获取数据，最后将数据解析后下载即可。

二，爬取

　　刚才已经分析完了整个Ajax请求，接下来就是使用代码来实现这个过程。

# _*_ coding=utf-8 _*_

import requests
import time
import os
from hashlib import md5
from urllib.parse import urlencode
from multiprocessing.pool import Pool


def get_data(offset):
    """
    构造URL，发送请求
    :param offset:
    :return:
    """
    timestamp = int(time.time())
    params = {
        'aid': '24',
        'app_name': 'web_search',
        'offset': offset,
        'format': 'json',
        'autoload': 'true',
        'count': '20',
        'en_qc': '1',
        'cur_tab': '1',
        'from': 'search_tab',
        'pd': 'synthesis',
        'timestamp': timestamp
    }

    base_url = 'https://www.toutiao.com/api/search/content/?keyword=%E8%A1%97%E6%8B%8D'
    url = base_url + urlencode(params)
    try:
        res = requests.get(url)
        if res.status_code == 200:
            return res.json()
    except requests.ConnectionError:
        return '555...'


def get_img(data):
    """
    提取每一张图片连接，与标题一并返回，构造生成器
    :param data:
    :return:
    """
    if data.get('data'):
        page_data = data.get('data')
        for item in page_data:
            # cell_type字段不存在的这类文章不爬取，它没有title，和image_list字段，会出错
            if item.get('cell_type') is not None:
                continue
            title = item.get('title').replace(' |', ' ')    # 去掉某些可能导致文件名错误而不能创建文件的特殊符号，根据具体情况而定
            imgs = item.get('image_list')
            for img in imgs:
                yield {
                    'title': title,
                    'img': img.get('url')
                }


def save(item):
    """
    根据title创建文件夹，将图片以二进制形式写入，
    图片名称使用其内容的md5值，可以去除重复的图片
    :param item:
    :return:
    """
    img_path = 'img' + '/' + item.get('title')
    if not os.path.exists(img_path):
        os.makedirs(img_path)
    try:
        res = requests.get(item.get('img'))
        if res.status_code == 200:
            file_path = img_path + '/' + '{name}.{suffix}'.format(
                name=md5(res.content).hexdigest(),
                suffix='jpg')
            if not os.path.exists(file_path):
                with open(file_path, 'wb') as f:
                    f.write(res.content)
                print('Successful')
            else:
                print('Already Download')
    except requests.ConnectionError:
        print('Failed to save images')


def main(offset):
    data = get_data(offset)
    for item in get_img(data):
        print(item)
        save(item)


START = 0
END = 10
if __name__ == "__main__":
    pool = Pool()
    offsets = ([n * 20 for n in range(START, END + 1)])
    pool.map(main, offsets)
    pool.close()
    pool.join()

　　这里定义了起始页START和结束页END,可以自定义设置。然后利用多进程的进程池，调用map（）方法实现多进程下载。运行之后发现图片都报存下来了。