今日头条页面图片获取 - 代码天地

今日头条页面图片获取

其他 2018-08-21 05:14:15 阅读次数: 0

今日头条页面图片获取

分为获取目录下的文件路径
以及具体目录下的多张图片

import re
import requests
import json,os
from urllib import request

def get_detail(url,title):
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NTr 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36'
    }
    # url = 'https://www.toutiao.com/a6589905154147877384/#p=3'
    response = requests.get(url,headers=headers)
    s = response.text

    match_res = re.search(r'gallery: JSON.parse\((.+?)\)',s)
    match_count = json.loads(match_res.group(1))
    # print((match_count))
    result = json.loads(match_count)
    print(type(result))

    if not os.path.exists('download/'+title):
        os.makedirs('download/'+title)




    for image_ in result['sub_images']:
        image_url = image_['url']
        fname = image_url.split('/')[-1]
        request.urlretrieve(image_url,'download/'+title+'/'+fname+'.jpg')


    print((result))

def get_url(offset=0):
    url = 'https://www.toutiao.com/search_content/?offset={}&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab'
    full_url = url.format(offset)
    response = requests.get(full_url)

    res_json = response.json()
    # print(res_json)
    # print(type(res_json))
    # 循环获得四页图片
    number = offset/20
    if number <= 4:
        number += 1
        offset = 20*(number)
        for page in res_json['data']:
            if  'article_url' in page:
                article_url = page['article_url']
                title = page['title']
                get_detail(article_url,title)
        get_url(offset)

if __name__ == '__main__':
    # 从第一页开始获取数据
    get_url(0)

猜你喜欢

转载自blog.csdn.net/qq_41847171/article/details/81750257

今日头条页面图片获取

获取今日头条街拍图片

今日头条图片

今日头条页面 TabLayout

今日头条图片路径

笔记-抓取今日头条图片

今日头条街拍图片抓取

python爬取今日头条图片

今日头条图片爬取(一)

今日头条图片爬取(二)

获取“今日头条”西瓜视频

Python爬虫学习笔记（实例：爬取今日头条街拍页面文章中的图片）

伪今日头条

今日头条

今日头条题型

爬虫今日头条

今日头条面试

仿今日头条

爬虫--今日头条

今日头条笔试

今日头条图片爬取和下载

爬取今日头条街拍图片

今日头条的街拍图片的简单自动爬取

爬取今日头条图片，可以输入页数

（廿五）Python爬虫：抓取今日头条图片

【Ajax+】爬去今日头条图片

python爬虫实战---今日头条的图片抓取

抓取今日头条的街拍美女图片

用Ajax爬取今日头条图片

用Ajax爬取今日头条图片集

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)