小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

其他 2018-07-15 12:40:05 阅读次数: 0

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

准备工作

工具：Python3.6、pycharm

库：requests、re、time、random、os

目标网站：妹子图（具体url大家自己去代码里看。。。）

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

在写代码之前

在我们开始写代码之前，要先对网站进行分析，重点有这个几个地方：

1、先判断网页是否静态网页，这个关系我们采用的爬虫手段！

简单的说，网页中的内容，在网页源代码中都可以找到，那么就可以断定，这个网站是静态的了；如果没有找到，就需要去开发者工具中查找，看看是抓包呢还是分析js结构或者其他的方式。

2、看看网页的结构，大致清楚抓取目标数据，需要几层循环，每次循环的方式，以及是否保证没有遗漏！

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

开始写代码

首先是导入上述的各种库，没有的需要安装一下！然后写入以下几行代码获取网页源代码看看是否有反爬：

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

全部在a标签的属性中，那么我们可以用一行代码获取了

infos = re.findall(r'a href="(http://www.meizitu.com/.*?html)" target="_blank" title="(.*?)" ',html.text)

这里用正则匹配，2个括号中的内容就是我们需要的url和名字了，然后开始构建循环遍历所有的分类

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

上一步取出的infos是列表，而且每一个元素都是一个元组，格式为（url，名字），所有我们用2个元素去遍历infos，来获取我们需要的内容，先打印下看看结果是否正确！

这里先不创建文件夹，先进行下一步，访问分类的url，然后开始构建分类中的页码吧！分析网页发现，所有的页码都在下方，但是还是稍有不同：没有当前页、多了下一页和末页

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

由于存在图集不足一页的情况（上述源代码就不会出现），所以我们这么处理循环

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

循环所有的url，获取所有图集的url列表，27行没有用encoding指定编码是因为这里我不需要取到中文的内容，所以简写了一下！终于该取图片了！

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

图集的title和图集内所有图片的url都取到了！其实到这里就已经完成了爬虫的80%了！剩下的20%就是保存图片到本地，这里就不多说了，给大家提供2个代码片段，一个是新建文件夹并判断是否存在，一个是剔除字符串内不符合命名要求的字符

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

最终完整代码和运行效果

在请求中加入了时间模块的暂停功能，不加入的话可能会被网页拒绝访问！

在最后请求图片地址的时候，需要加入UA来告诉服务器你是浏览器而不是脚本，这个是最常用的反爬手段了

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

下载一段时间后的效果

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

相信大家应该也做出你自己的脚本了吧！有什么问题也可以在评论区或者私信发消息哦！

进群：125240963 即可获取数十套PDF哦！

猜你喜欢

转载自blog.csdn.net/qq_42156420/article/details/81044510

小白福利！跟着我的脚步！老司机带你爬取整站妹子图！反爬不存在

老司机带你用python来爬取妹子图

老司机教你用python来爬取妹子图，带好卫生纸

Java超简单的网络爬虫技术，老司机带你爬取一大波妹子图！附源码

福利！！！Python爬取好看的妹子图！！！

【福利篇】python爬取妹子图

Python福利——爬取妹子图

爬取斗图网表情包之后斗图会输？不存在的

爬取妹子图

Python+scrapy 爬取西刺代理ip！封我ip不存在的！

Python协程爬取妹子图(内有福利，你懂得~)

Python老司机手把手带你写爬虫，整站下载妹子图，一次爽个够！

Python教程：老师傅带你爬取全网妹子图！

漫客们的福利啦，爬取整站动漫图片，小白都能学，超简单

python爬取妹子图

简单爬取妹子图

妹子图图片爬取

手把手教你爬取Instagram博主照片和视频！看完不存在不会的！

老司机带你用Python抓取divnil动漫妹子图

Python爬虫福利第二弹---爬取妹子图最新图片

Python爬取设计素材网站，免费使用素材，花钱不存在花钱的

爬取煎蛋网妹子图

爬虫爬取清纯妹子图

妹子图爬取__正则实现

爬取妹子图网站的图片

[python爬虫]爬取妹子图

Scrapy框架爬取海量妹子图

Python爬虫教程：爬取妹子图

python 爬取煎蛋ooxx妹子图

Python爬取煎蛋妹子图

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)