网页如何判断一个请求来自于爬虫？ - 代码天地

网页如何判断一个请求来自于爬虫？

其他 2020-04-01 12:45:20 阅读次数: 0

网络爬虫在大多数情况中都不违法，其实我们生活中几乎每天都在爬虫应用，如百度，你在百度中搜索到的内容几乎都是爬虫采集下来的(百度自营的产品除外，如百度知道、百科等)，所以网络爬虫作为一门技术，技术本身是不违法的，且在大多数情况下你都可以放心大胆的使用爬虫技术。当然也有特殊情况，请看下一章节。

可以从以下几点进行考虑

限制请求/提交次数，比如每分钟最多请求60次，3分钟最多请求100次。如果超过这种阶梯式的设置次数就进行封禁，凡是这种封禁最好是可解除的，称为临时封禁，还有一种永久封禁，博主就是达到这个峰值的时候直接跳转到验证码页面。
保存各大搜索引擎的蜘蛛IP(这个可以查询到的)，保存下来放行，但是这个不易维护。
判断user_agent头，因为头里有一些搜索引擎的来源（网上有开源的项目包，可以根据user_agent判断系统、浏览器版本型号，感兴趣的可以用一下），但是这个判断user_agent头很容易伪造，并不可靠。
页面植入js，如果是浏览器打开就肯定会执行这个js，那么后台拦截这个js的请求，反之则是爬虫。这块的准确率达到了80%以上，甚至90%以上。为什么还有有不准的情况呢，因为有几种情况是统计不到的，比如快速刷新(页面还没完全打开)、网速不好的情况下，页面也会一直在加载。
另外可以做一个封杀表，按照IP(全匹配)、user_agent(模糊匹配)两种类型进行封禁，比如user_agent含有Python的，博主认为肯定是爬虫。

页面植入js，如果是浏览器打开就肯定会执行这个js，那么后台拦截这个js的请求，反之则是爬虫。感觉这个很好判断，因为对于爬虫来说它爬到的是数据，并不是要看页面，也就没有浏览器执行js的步骤。

LU_ZHAO

发布了318 篇原创文章 · 获赞 13 · 访问量 9万+

私信关注

猜你喜欢

转载自blog.csdn.net/LU_ZHAO/article/details/105237041

网页如何判断一个请求来自于爬虫？

如何设计一个网页爬虫

07 来自于网友的 retrieveFileStream 的一个问题, 导致系统程序异常

【Python爬虫】用urllib请求一个网页，响应的content中中文为16进制，如何转换为中文

如何判断一个网页是不是动态页面

写一个网页进度loading（来自转载）

来自一个学员的反馈【python 网络爬虫入门】

如何判断请求来自 PC || Mobile

java项目如何判断一个请求是否为AJAX请求

来自vipjr英语家长的真实体验分享，如何判断一个线上平台好不好？！

判断一个请求Request是否是ajax请求

判断一个请求是否为ajax请求

如何优化一个网页

引言：在Spring Boot下默认提供了若干种可用的连接池，Druid来自于阿里系的一个开源连接池，在连接池之外，还提供了非常优秀的监控功能，这里讲解如何与Spring Boot实现集成。

怎样判断一个网页是否加载成功

一个爬虫从网页中爬取小说

使用 Requests 实现一个简单网页爬虫

java爬虫入门——从一个网页抓取源码

如何判断一个变量是数组？

如何判断一个变量是指针

如何判断一个算法的好坏

来自于富林

Nginx是如何执行一个请求的

来自于微信小程序的一封简讯

Python爬虫1：爬虫原理、网页构造与第一个爬虫程序

wareshark判断一个http请求链接是否断开

一个简单的爬虫程序，包含请求头。

第一个get请求的爬虫程序

PHP判断一个请求是AJAX请求还是普通请求

爬虫学习——（一）Request库请求网页

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)