反爬虫策略实例 - 代码天地

反爬虫策略实例

其他 2019-03-24 13:01:21 阅读次数: 0

前言

对于一张网页，我们往往希望它是结构良好，内容清晰的，这样搜索引擎才能准确地认知它。
而反过来，又有一些情景，我们不希望内容能被轻易获取，比方说电商网站的交易额，教育网站的题目等。因为这些内容，往往是一个产品的生命线，必须做到有效地保护。这就是爬虫与反爬虫这一话题的由来。

但是世界上没有一个网站，能做到完美地反爬虫。如果页面希望能在用户面前正常展示，同时又不给爬虫机会，就必须要做到识别真人与机器人。因此工程师们做了各种尝试，这些策略大多采用于后端，也是目前比较常规但有效的手段，比如：

后端与反爬虫

1、User-Agent

2、账号及Cookie验证

3、验证码

4、IP限制频率

前端与反爬虫

1、FONT-FACE拼凑式

实例：猫眼电影

猫眼电影里，对于票房数据，展示的并不是纯粹的数字。页面使用了font-face定义了字符集，并通过Unicode取映射展示。也就是说，除去图像识别，必须同时爬取字符集才能识别出数字。

扫描二维码关注公众号，回复： 5637987 查看本文章

2、元素定位覆盖式

实例：去哪网

对于一个4位数字的机票价格，先用四个i标签渲染，再用b标签取绝对定位偏移量，覆盖展示错误的i标签，形成视觉上正确的价格。

3、字符分割式

实例：全网代理IP

在展示代理IP信息的页面

4、字符穿插式

实例：微信公众号文章

在某些微信公众号的文章里，穿插了各种谜之字符，通过样式把这些字符隐藏掉。

5、background拼凑式

展示的数字其实是图片，根据不同的background偏移，展示出不同的字符

6、伪元素隐藏式

把关键的信息放到伪元素的content里面。爬取网页时必须得解析css拿到伪元素的content。

7、字符集替换式

HTML代码里明明写的是3211，视觉上展示的却是1233，重新定义字符集，将3和1 的顺序调换。

猜你喜欢

转载自www.cnblogs.com/yusir/p/10587654.html

反爬虫策略实例

关于反爬虫策略

反爬虫策略

详解爬虫策略，反爬虫策略，反反爬爬虫策略

scrapy项目反爬虫策略

反爬虫策略调研与分析

反爬虫策略分析及处理

解决猫眼网反爬虫策略的爬虫

爬虫与反爬虫系统的设计思路与策略

反爬虫总结 | 必须掌握的6种反爬虫策略

转互联网反爬虫策略

各大前端巨头反爬虫策略

各大型网站反爬虫策略

防止爬虫被反几个常见策略

常见反爬虫方法及绕过策略

数据安全之反爬虫策略

python爬虫采集反爬策略

反爬虫策略的应对方法汇总

反爬虫常见策略总结

关于爬虫与反爬虫对抗过程以及策略

爬虫11-scrapy突破反爬虫策略

Scrapy学习笔记(6)-反爬虫与反反爬虫策略

python爬虫教程：python解决网站的反爬虫策略总结

抖音爬虫教程，python爬虫采集反爬策略

Python爬虫中的数据存储和反爬虫策略

爬虫爬取方法分析与反爬虫策略

互联网网站的反爬虫策略浅析--转载

反爬虫策略浅析：识别，拒绝与防火墙范例

scrapy基础知识之防止爬虫被反的几个策略

Python网络爬虫反爬破解策略实战

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)