【你真的会斗图嘛?】Python爬虫实战项目——你想要的图都可以爬到(附安装地址)

大家好,我是辣条哥!
相信大家对于现在聊天的一些图片,表情包这些并不陌生,甚至现在还有专门互相斗图的!辣条有不不少爱斗图的朋友,但个人表情包储备量着实很少,但是架不住我有技术,于是乎我动起了我的小手,这里也告诉大家怎么操作,让大家在斗图路上一去不回头!
在这里插入图片描述

一、安装知识

(1)Python环境变量

网址:https://www.python.org/
下载与自己电脑版本相对应的环境即可

(2)Pycharm开发工具

网址:https://www.jetbrains.com/pycharm/download/#section=windows
在这里插入图片描述

(3)requests模块

1、安装下载好Pycharm之后,找到终端进行下载requests模块

在这里插入图片描述

2、输入下载语法:

pip install requests点击回车等待下载完成即可

3、此次项目还需用到正则(re),

但正则模块不需要下载,因为正则是Python自带的模块,我们不需要下载只需导入即可使用(如何导入模块在下方)

二、代码部分

1、导入下载好的requests模块

在这里插入图片描述

2、输入需要爬取网站的网址

(1)此次项目为斗图啦
(2)网址为字符串类型,在Pycharm中得需要用变量名来接收
在这里插入图片描述

3、通过请求网址拿到网页中所有的数据

(1)用到前面早已下载好的requests模块进行请求网址
在这里插入图片描述

(2)进行打印输出看数据有没有全部获取下来
在这里插入图片描述

打印内容:
在这里插入图片描述

(3)数据未获取完整,为什么呢?
① 浏览器也不蠢,浏览器检测出我们是使用爬虫进行抓取该网站信息,所以给我们进行反爬处理了,那么我们想达到“反反爬”的机制该如何来实现呢?——加“请求头”
② 那么请求头在哪呢?
1)在目标网页的空白处右键检查
在这里插入图片描述

2)找到请求头
在这里插入图片描述

3)CV进我们的项目中
在这里插入图片描述

我们所CV进来的请求头是属于字典类型,所以我们得遵循字典类型的规范,用花括号包含起来,并区分key与value值
4)写入之后需把请求头加到请求语句中去
在这里插入图片描述

5)进行重新打印输入
在这里插入图片描述

这样就拿到目标网页中所有的数据
6)拿到数据之后利用正则进行数据清洗,拿到我们想要图片的网址
a、目标网址在我们所获取到所有的代码中(如下图)
在这里插入图片描述

b、通过正则表达式拿到网址
在这里插入图片描述

c、打印输出
在这里插入图片描述

这样我们就能拿到所有目标图片的网址了,但是现在的网址是在列表中,那么我们如何才能从列表中把每一张图片的网址拿出来呢?
下周辣条会继续更新

猜你喜欢

转载自blog.csdn.net/AI19970205/article/details/131133822