Python运用正则解析爬取糗事百科图片

编程语言 2023-06-05 05:13:38 阅读次数: 0

文章目录

前言
爬取原理
代码

前言

这只是一个基础的爬取图片过程，其他图片的爬取大致过程也是这样

爬取原理

图片爬取属于聚焦爬虫，其编码流程大致如下：

指定url
发起请求
获取相应数据
数据解析
持久化存储、

过程：首先要进入糗事百科网页，按F12进入爬虫工具页面，通过检查可以发现，图片都存在class =“thumb”的div中，但是这个div中不只是有图片，而且还有图片介绍，我们可以写一段正则表达式用来对img单独提取

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

在这里插入图片描述

代码

import requests
import re
import os
url ='https://www.qiushibaike.com/imgrank/'
if not os.path.exists('./qiutu'):
    os.mkdir('./qiutu')
headers ={
    
    
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.55'
}
#使用通用爬虫对URL对应一整张页面进行爬取
page_text = requests.get(url=url,headers=headers).text
#使用聚焦爬虫将页面中所有的糗图进行解析提取
ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'
img_src_list = re.findall(ex,page_text,re.S)
for src in  img_src_list:
 #拼接出一个完整的图片url
    src='https:'+src
 # 请求到图片的二进制数据
    img_data = requests.get(url=src,headers=headers).content
 # 生成图片名称
    img_name = src.split('/')[-1]
 # 存储路径
    imgPath = './qiutu/'+img_name
    with open(imgPath,'wb') as fp:
        fp.write(img_data)
        print(img_name,'打印成功！')

爬取结果
在这里插入图片描述

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Tom197/article/details/119220143

Python运用正则解析爬取糗事百科图片

爬取糗事百科图片（正则案例）

python多进程爬取糗事百科图片

python+正则+多进程爬取糗事百科图片

python3爬虫入门(正则+requests 糗事百科多页图片爬取)

python3爬虫入门(正则+requests 糗事百科单页图片爬取)

Python 利用正则爬取糗事百科整张页面图片

Python爬取糗事百科

python3糗事爬取-------------------糗事百科

基于python3 爬取糗事百科

python爬虫（二）爬取糗事百科

Python 爬取糗事百科段子

python爬取糗事百科段子

利用Python爬取糗事百科段子信息

Python爬取糗事百科-多进程方法

python3 爬取糗事百科

python预加载爬取糗事百科帖子

爬虫：python爬取糗事百科网页信息

Python爬取多页糗事百科

Python :爬取糗事百科段子

python爬虫1、~爬取糗事百科

python scrapy demo 爬取糗事百科

python爬虫练习1：通过python爬取糗事百科的搞笑图片

爬取糗事百科练习

爬取糗事百科

爬取糗事百科段子

爬取糗事百科案例

爬取糗事百科的页面

糗事百科段子爬取

糗事百科爬取

今日推荐

wlnmp 一键安装包更新 240522

ChatGPT 严重宕机，结果被造谣“遭遇俄罗斯黑客入侵”

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

周排行

010-题目：利用条件运算符的嵌套来完成此题：学习成绩>=90分的同学用A表示，60-89分之间的用B表示，60分以下的用C表示。

接口测试-工作心得记录八（使用locust库书写接口并发）

物理分页和逻辑分页

Hive建表语句详解--CREATE TABLE

爬虫学习----学习get和post请求

PDF生成类库

POJ 2139

前端路由基本原理

I/O多路转接之epoll

.NET开源项目 QuarkDoc 一款自带极简主义属性的文档管理系统

每日归档

更多

2024-05-23(9)

2024-05-22(41)

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)