Python 爬虫得用正则进行数据解析爬取糗图图片并保存一本地 - 代码天地

Python 爬虫得用正则进行数据解析爬取糗图图片并保存一本地

其他 2021-03-25 04:47:14 阅读次数: 0

废话不多说，直接上代码吧

代码

#导入模块
import re
import requests
import os

#创建文件夹
if not os.path.exists('./qiutu'):
    os.mkdir('./qiutu')

#模仿浏览器访问
headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/57.0.2987.98 Safari/537.36'}
#网站访问地址
url='https://www.qiushibaike.com/imgrank/page/'

#多页访问
for page in range(1,3):
    new_url=url+ str(page)  #新url地址
    page_text=requests.get(url=new_url,headers=headers).text   #页面内容下载
    #正则匹配图片路径
    ex ='<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'  
    img_list=re.findall(ex,page_text,re.S)

    #图片保存
    for src in img_list:
        src='https:'+src  #图片下载路径
        img_data=requests.get(url=src,headers=headers).content  #二进制保存
        img_name=src.split('/')[-1]   #图片名字
        img_path='./qiutu/'+img_name   #图片保存路径
        with open(img_path,'wb') as f1:
            f1.write(img_data)
            print(img_name,'下载成功')

要导入的三个模块：re正则、request网格请求、os本地读写操作

安装requests 模块

打开cmd,输入：pip install requests -i https://pypi.tuna.tsinghua.edu.cn/simple/

安装后面加上-i https://pypi.tuna.tsinghua.edu.cn/simple/ 表示从清华镜像下载模块，速度会提高好多！

正则解析

<div class="thumb">
<a href="/article/121721100" target="_blank">
<img src="//pic.qiushibaike.com/system/pictures/12172/121721100/medium/DNXDX9TZ8SDU6OK2.jpg" alt="指引我有前进的方向">
</a>
</div>

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

#第一个.*?表示<a href="/article/121721100" target="_blank">
#第二个.*?表示pic.qiushibaike.com/system/pictures/12172/121721100/medium/DNXDX9TZ8SDU6OK2.jpg （图片路径，是要匹配的目标）
#第三个.*?表示 "指引我有前进的方向"

猜你喜欢

转载自blog.csdn.net/qq_28471389/article/details/114975406

Python 爬虫得用正则进行数据解析爬取糗图图片并保存一本地

Python爬虫项目：爬虫爬取正则分析糗百数据

Python 爬虫入门(一)——爬取糗百

python爬虫爬取图片并保存到本地

python爬虫爬取图片保存到本地文件

python爬虫爬取网站图片保存本地

爬取图片实例python爬虫（保存到本地）

Python 爬取网页图片并进行本地保存

Python 进行数据的爬取（网络爬虫）

python爬虫--房产数据爬取并保存本地

Python保存爬虫爬取的图片

Python爬虫自动爬取图片并保存

【python爬虫】对喜马拉雅上一个专辑的音频进行爬取并保存到本地

python爬虫解析图片保存到本地

Python爬虫最入门的教程案例：爬取糗百

python爬虫scrapy框架爬取糗妹妹段子首页

Python爬虫实战，requests模块，Python爬取音频数据并保存本地

Python爬虫：爬取高考一本线、二本线、学校分数线等，详细讲解数据从哪来

【python爬虫自学笔记】-----爬取知乎图片并保存在本地

Python应用之爬取一本pdf

首战：python爬取一本小说

用python爬取一本网络小说

通过python爬取笔趣阁小说，获取图片保存本地，数据保存mysql

Python爬虫对json数据解析爬取

Python编程（一）--爬虫爬取图片

python爬取网站上的图片并保存到本地

python爬取网页图片并保存到本地

python正则图片爬取

Python爬虫----爬取b站每日排行数据

数据解析-正则表达式-爬取糗图百科上的图片

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)