爬取今日头条图片，可以输入页数 - 代码天地

爬取今日头条图片，可以输入页数

其他 2018-09-01 11:50:59 阅读次数: 0

import requests,re
import json
from urllib import request
import os

url = 'https://www.toutiao.com/search_content/?offset={}&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab'
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36',

}
for i in range(3):

    url = 'https://www.toutiao.com/search_content/?offset={}&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab'.format(20*i)
    response= requests.get(url,headers=headers)

    res = response.json()
    data_list = res['data']
    # 新建文件夹
    if not os.path.exists('download') :
        os.mkdir('download')
    for data_item in data_list:
        if 'article_url' in data_item:
            article_url = data_item['article_url']
            # print(article_url)
            response = requests.get(article_url,headers=headers)

            res_html = response.text
            # print(res_html)
            res_zhengze = r'gallery: JSON\.parse\((.*)\),'
            pattern = re.search(res_zhengze, res_html)
            if pattern:
                res_2 = json.loads( pattern.group(1))
                res_3 = json.loads(res_2)
            else:
                continue
            for res_4 in res_3['sub_images']:
                res_5 = res_4['url']
                print(res_5)
                filename = 'download/' + res_5.split('/')[-1] + '.jpg'
                # 下载图片
                request.urlretrieve(res_5, filename)

猜你喜欢

转载自blog.csdn.net/weixin_42958164/article/details/81750196

爬取今日头条图片，可以输入页数

python爬取今日头条图片

今日头条图片爬取(一)

今日头条图片爬取(二)

爬取今日头条

今日头条的爬取

今日头条图片爬取和下载

爬取今日头条街拍图片

今日头条的街拍图片的简单自动爬取

用Ajax爬取今日头条图片

用Ajax爬取今日头条图片集

利用Ajax爬取今日头条------街拍图片

python爬虫-爬取今日头条街图片

爬虫—分析Ajax爬取今日头条图片

使用ajax爬取今日头条街拍图片

今日头条街拍图片爬取

爬取今日头条短视频

nodejs 爬取动态网页以今日头条街拍图片为例

python爬虫练习--爬取今日头条街拍图片

practice之Python爬取今日头条图片（正则表达式）

【python爬虫自学笔记】（实战）------爬取今日头条街拍图片

python3 爬虫学习日志之爬取今日头条街拍图片

今日头条图片ajax异步加载爬取，并保存至mongodb，以及代码写法的改进

小白学爬虫——爬取今日头条里的图片（三）

小白学爬虫——爬取今日头条里的图片（二）

小白学爬虫——爬取今日头条里的图片（一）

Python爬虫实战——爬取今日头条美女图片

Python爬虫学习笔记（实例：爬取今日头条街拍页面文章中的图片）

python3 网络爬虫开发实战爬取今日头条街拍图片

今日头条图片

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)