今日头条 json 街拍 baocun - 代码天地

今日头条 json 街拍 baocun

其他 2018-08-18 08:42:52 阅读次数: 0

import re
import requests
import json
import os
from urllib import request


url = 'https://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab'

response = requests.get(url)

# 可以通过response.json, 直接获取转化后的对象(dict)
html_str_dict = response.json()
# print(html_str_dict)

# 获取dict中的data key对应的列表
data_list = html_str_dict['data']
# print(data_list)

#如果列表中的每一项， 有article_url 我们就取这个值
for i in data_list:
    if 'article_url' in i:          # 取到这个url
        article_url = i['article_url']
        # response = requests.get(article_url)
        print(article_url)


        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
        }
        response = requests.get(article_url,headers=headers)

        # with open('beiying.html', 'wb') as f:
        #     f.write(response.content)

        html_str = response.text

        pattern = r'gallery: JSON\.parse\((.*)\),'    # 正则匹配

        match_res = re.search(pattern, html_str)

        # 新建文件夹
        if not os.path.exists('download') :
            os.mkdir('download')

        if match_res:
            # 这本来就是str
            # print(match_res.group(1))
            json_origin = match_res.group(1)
            # 这是第一遍loads, 返回值是str
            res_buzhidao = json.loads(json_origin)
            # print(res_buzhidao)
            # print(type(res_buzhidao))
            res_dict = json.loads(res_buzhidao)
            # print(res_dict)
            # print(type(res_dict))

            sub_images_list = res_dict['sub_images']
            for image in sub_images_list:
                image_url = image['url']
                filename = 'download/' + image_url.split('/')[-1] + '.jpg'
                # 下载图片
                request.urlretrieve(image_url, filename)
        else:
            print('你写错了')

猜你喜欢

转载自blog.csdn.net/qq_41996633/article/details/81750233

今日头条 json 街拍 baocun

python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图

今日头条街拍图片抓取

网络爬虫-今日头条-街拍

抓取今日头条街拍美图

获取今日头条街拍图片

分析Ajax请求并抓取今日头条街拍美图

Python Spider 抓取今日头条街拍美图

分析Ajax爬取今日头条街拍美图

分析Ajax爬取今日头条街拍美景

爬取今日头条街拍美图

简单爬今日头条街拍获取图集

Python爬虫练习之智斗今日头条街拍

爬取今日头条街拍图片

今日头条的街拍图片的简单自动爬取

python爬虫之今日头条街拍美图

详解python爬取今日头条街拍美图

python：今日头条中街拍美图的爬取

ajax分析-今日头条街拍美图抓取

ajax动态抓取今日头条街拍美图

Ajax爬取今日头条街拍美图

抓取今日头条的街拍美女图片

利用Ajax爬取今日头条------街拍图片

分析Ajax请求抓取今日头条街拍图片

今日头条街拍爬虫（2019.7.30更）

使用ajax爬取今日头条街拍图片

今日头条街拍图片爬取

Python 批量获取今日头条街拍美图

nodejs 爬取动态网页以今日头条街拍图片为例

芝麻HTTP：分析Ajax爬取今日头条街拍美图

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)