Web爬虫|入门实战之实习僧（编码反爬） - 代码天地

Web爬虫|入门实战之实习僧（编码反爬）

企业开发 2023-07-25 21:30:33 阅读次数: 0

原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！

目录

一、爬虫任务

任务背景：爬取实习僧网站Python实习数据
任务目标：利用解析库Beautiful Soup解析网页并获得所需数据

二、解析

首先进入实习僧官网主页：https://www.shixiseng.com
爬取一下实习僧IT互联网的Python实习信息，如下图：
在这里插入图片描述

滑到页面最底部，点击下一页，观察URL的规律，如下图：

从上面的网址可以看出，只有page=？这里变化了

接着再点进去，查看相应的详细数据：https://www.shixiseng.com/intern/inn_1k3vhcwwguaf?pcm=pc_SearchList

然后再查看相应源代码的属性，如下图：
在这里插入图片描述
如上图所示，该字段的数据看不见，可能它不希望你很简单的就获得它网站的这些数据，这些数据对他来说比较重要，不想让我们轻易获得，所以启用了反爬

如果直接运行，这些数据是爬取不下来的，如下图：
在这里插入图片描述
反反爬技巧：实际上这是编码问题，我们只要用一种编码方式，比如“utf-8”编码来表示这些数据，然后再用你选的编码方式来替换相应的数据部分，如下图：

如上图，相关数据已经以“utf-8”编码的方式呈现出来

创建函数hack_number()，用于解码数字：
在这里插入图片描述
然后再观察一下点进去的网址：

我们这里是先广度再深度进行爬取数据

编写好相关代码之后，查看运行结果：

三、源码下载

CSDN源码下载链接：下载源码

原创不易，如果觉得有点用，希望可以随手点个赞，拜谢各位老铁！

四、作者Info

作者：小鸿的摸鱼日常，Goal：让编程更有趣！

专注于算法、爬虫，网站，游戏开发，数据分析、自然语言处理，AI等，期待你的关注，让我们一起成长、一起Coding！

转载说明：本文禁止抄袭、转载，侵权必究！

猜你喜欢

转载自blog.csdn.net/qq_44000141/article/details/121480796

Web爬虫|入门实战之实习僧（编码反爬）

字体反爬之实习僧

python爬虫字体反爬实习僧

【python实现网络爬虫（4）】实习僧网站信息爬取（字体反爬虫破解）

字体反爬破解学习--爬取实习僧

【python爬虫系列】14.实战三爬取实习僧

字体反爬之实习seng

爬取实习僧网站并存储

Python爬取实习僧算法JD

scrapy爬取实习僧全站

Python爬取实习僧职位信息

实习僧网站爬取数据

python练手实战项目:爬取实习僧招聘信息

爬虫入门基础-Selenium反爬

利用python爬取实习僧网站上的数据

将爬取的实习僧网站数据传入HDFS

Python网络爬虫反爬破解策略实战

Python爬虫实战——反爬机制的解决策略【阿里】

Python之Scrapy爬虫实战--绕过网站的反爬

爬虫与反爬

爬虫与反爬的斗争

爬虫反爬

python爬虫入门 ✦ 自如租房CSS反爬案例

python爬虫入门 ✦ 大众点评网字体反爬

Python爬虫入门 - 规则、框架和反爬策略解析

爬虫与反爬之-爬虫

python爬虫--爬虫与反爬

反爬虫实战分析

爬虫--反爬--css反爬---大众点评爬虫

‘爬虫-反爬’知多少

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)