Web爬虫|入门实战之实习僧(编码反爬)

原创不易,本文禁止抄袭、转载,多年爬虫实战开发经验总结,侵权必究!

一、爬虫任务

任务背景:爬取实习僧网站Python实习数据
任务目标:利用解析库Beautiful Soup解析网页并获得所需数据

二、解析

首先进入实习僧官网主页:https://www.shixiseng.com
爬取一下实习僧IT互联网的Python实习信息,如下图:
在这里插入图片描述
在这里插入图片描述
滑到页面最底部,点击下一页,观察URL的规律,如下图:
在这里插入图片描述
从上面的网址可以看出,只有page=?这里变化了

接着再点进去,查看相应的详细数据:https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList

然后再查看相应源代码的属性,如下图:
在这里插入图片描述
如上图所示,该字段的数据看不见,可能它不希望你很简单的就获得它网站的这些数据,这些数据对他来说比较重要,不想让我们轻易获得,所以启用了反爬

如果直接运行,这些数据是爬取不下来的,如下图:
在这里插入图片描述
反反爬技巧:实际上这是编码问题,我们只要用一种编码方式,比如“utf-8”编码来表示这些数据,然后再用你选的编码方式来替换相应的数据部分,如下图:
在这里插入图片描述
如上图,相关数据已经以“utf-8”编码的方式呈现出来

创建函数hack_number(),用于解码数字:
在这里插入图片描述
然后再观察一下点进去的网址:
在这里插入图片描述
我们这里是先广度再深度进行爬取数据

编写好相关代码之后,查看运行结果:
在这里插入图片描述

三、源码下载

CSDN源码下载链接:下载源码

原创不易,如果觉得有点用,希望可以随手点个赞,拜谢各位老铁!

四、作者Info

作者:小鸿的摸鱼日常,Goal:让编程更有趣!

专注于算法、爬虫,网站,游戏开发,数据分析、自然语言处理,AI等,期待你的关注,让我们一起成长、一起Coding!

转载说明:本文禁止抄袭、转载 ,侵权必究!

猜你喜欢

转载自blog.csdn.net/qq_44000141/article/details/121480796