今日头条的街拍图片的简单自动爬取 - 代码天地

今日头条的街拍图片的简单自动爬取

其他 2018-08-19 22:14:00 阅读次数: 0

import requests
import re,os
import json
from urllib import request
#定义一个函数
def tout(url):
    #定义头部信息
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36'
    }
    response = requests.get(url)
    #直接用json方法转成字典类型
    res_dict = response.json()
    # print(type(res_dict))
    #设置一个文件夹用来存放爬取的照片
    if not os.path.exists('downloads'):
        os.mkdir('downloads')
    #循环取出详情页的url
    for v in res_dict['data']:
        if 'article_url' in v :
            s = v['article_url']

            response = requests.get(s,headers=headers)


            res_str = response.text

            sp = r'JSON\.parse\((.*)\),'
            #利用正则的方法匹配出图片路径
            c_res = re.search(sp,res_str)

            if c_res:
                #这儿两次转字典，第一次是去掉最外面的双引号，第二次是转为字典类型
                res = json.loads(c_res.group(1))
                res_dict = json.loads(res)
                urlss = res_dict['sub_images']
                #循环遍历出图片的路径
                for v in urlss:
                    urls = v['url']
                    # print(urls)
                    #定义文件名
                    filename = urls.split('/')[-1] + '.jpg'
                    print(filename)
                    #文件保存路径
                    paths = 'downloads/'+filename
                    #下载图片的方法
                    request.urlretrieve(urls,paths)
#定义一个循环，可以自己DIY循环的次数
i = 0
while i<21:
    url = 'https://www.toutiao.com/search_content/?offset='+str(i)+'&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=1&from=search_tab'
    #调用函数
    tout(url)
    i += 20

猜你喜欢

转载自blog.csdn.net/yangbenhao/article/details/81750415

今日头条的街拍图片的简单自动爬取

爬取今日头条街拍图片

利用Ajax爬取今日头条------街拍图片

使用ajax爬取今日头条街拍图片

今日头条街拍图片爬取

分析Ajax爬取今日头条街拍美景

分析Ajax爬取今日头条街拍美图

爬取今日头条街拍美图

详解python爬取今日头条街拍美图

python：今日头条中街拍美图的爬取

Ajax爬取今日头条街拍美图

nodejs 爬取动态网页以今日头条街拍图片为例

python爬虫练习--爬取今日头条街拍图片

【python爬虫自学笔记】（实战）------爬取今日头条街拍图片

python3 爬虫学习日志之爬取今日头条街拍图片

Python爬虫学习笔记（实例：爬取今日头条街拍页面文章中的图片）

python3 网络爬虫开发实战爬取今日头条街拍图片

简单爬今日头条街拍获取图集

今日头条街拍图片抓取

获取今日头条街拍图片

python爬虫-爬取今日头条街图片

Ajax数据爬取（4）分析Ajax爬取今日头条街拍美图

[python爬虫]爬取今日头条，例子：街拍将图片存到本地文件夹里

芝麻HTTP：分析Ajax爬取今日头条街拍美图

python爬虫之分析Ajax信息爬取今日头条街拍美图

python爬虫实现今日头条街拍爬取

python多线程爬取-今日头条的街拍数据（附源码加思路注释）

爬取今日头条街拍图的一次教训

python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图

Ajax爬取今日头条街拍改进——各种雷区解决包括data:none问题

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)