Python爬百度图片并下载到本地实战 - 代码天地

Python爬百度图片并下载到本地实战

其他 2021-01-30 10:21:14 阅读次数: 0

百度图片是Ajax加载的，怎么判断是不是Ajax呢？方法很简单，我们在页面进行某种操作时，网页的链接不会变化，但是内容变了，就可以判定网页内容是Ajax动态加载出来的，例如在浏览百度图片时，鼠标滚轮一直往下滑动，图片会不断加载出来，但是网页的链接并没有变化，百度图片就是Ajax动态加载出来的。

爬取Ajax动态加载的内容一般需要找到它的json接口，在浏览器开发者工具—>Network—>XHR可以找到，如果没有找到就再选择其他的看看。

import requests
from urllib import parse
from uuid import uuid4
import os

headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
session=requests.session()
session.headers=headers
num=0
def getPage(url):
    page=session.get(url)
    print(page.status_code)
    # print(page.json())
    page.encoding=page.apparent_encoding
    data=page.json()['data']    # 列表
    for i in data[:-1]: # 因为最后一个是空的，所以取到倒数第二个元素
        img_url=i['hoverURL']
        print(img_url)
        imgDownload(img_url)

# 下载图片
def imgDownload(url):
    if not os.path.exists('06_imgs'):
        os.makedirs('06_imgs')
    global num
    try:
        content=session.get(url)
        with open('06_imgs/{}.jpg'.format(uuid4()),'wb') as f:
            for chunk in content.iter_content(225): # 每次下载225字节
                if chunk:
                    f.write(chunk)
            num += 1
            print(">>>第{}张爬取成功.".format(num))
    except:
        print(">>>爬取失败.")

if __name__ == '__main__':
    # num=0
    word=input("请输入关键词：")
    pages=input("请输入要爬取的页数，每页30张图片：")
    for page in range(int(pages)):
        url='https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&word='+parse.quote(word)+'&pn='+str((page+1)*30)
        getPage(url)

猜你喜欢

转载自blog.csdn.net/KK_2018/article/details/112913223

Python爬百度图片并下载到本地实战

Python爬虫实战：根据关键字爬取某度图片批量下载到本地

python3.x简单爬虫（爬取百度壁纸图片下载本地）

Python爬虫实战（五）：根据关键字爬取某度图片批量下载到本地（附上完整源码）

Python爬取百度下载图片

python爬取百度图片并下载

python脚本爬取百度贴吧里的图片并下载到指定路径下,支持多页同时下载

Python爬虫实战：基于Scrapy爬取虎牙星秀主播图片并下载到本地

Python爬取百度图片

Python 爬取百度图片

【Python】爬取百度图片

Python 百度图片爬取

Python-从百度百科上查找对应人名信息并整合下载到本地

Python学习爬取图片并下载到本地（5）

python爬虫爬取百度图片并保持到本地

Python爬虫【实战篇】百度贴吧爬取页面存到本地

Python爬虫实战：Scrapy爬取B站娱乐直播全部主播图片重命名下载到本地

Python爬虫实战：基于Scrapy的爬取斗鱼颜值主播图片并下载到本地2.0版

实战python 爬虫爬取百度贴吧图片

python爬虫实战之爬取任意百度图片（升级版）

百度图片爬虫-python版-如何爬取百度图片?

爬取糗事百科1到5页的图片并下载到本地

百度识别菜品并将检索到的图片下载到本地并将信息添加到数据库

python 爬取菜鸟教程python100题，百度贴吧图片反爬虫下载，批量下载

python百度搜索url爬取图片

用python爬取百度图片

Python爬虫案例：爬取百度图片

python3 爬取百度图片

python 3 爬取百度图片

使用python3爬取百度图片

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)