反反爬虫相关机制

其他 2018-10-25 03:15:39 阅读次数: 0

反反爬虫相关机制

Some websites implement certain measures to prevent bots from crawling them, with varying degrees of sophistication. Getting around those measures can be difficult and tricky, and may sometimes require special infrastructure. Please consider contacting commercial support if in doubt.
(有些些网站使用特定的不同程度的复杂性规则防止爬虫访问，绕过这些规则是困难和复杂的，有时可能需要特殊的基础设施，如果有疑问，请联系商业支持。)
来自于Scrapy官方文档描述：http://doc.scrapy.org/en/master/topics/practices.html#avoiding-getting-banned

通常防止爬虫被反主要有以下几个策略：

动态设置User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）
禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）
可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭
设置延迟下载（防止访问过于频繁，设置为 2秒或更高）
Google Cache 和 Baidu Cache：如果可能的话，使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据。
使用IP地址池：VPN和代理IP，现在大部分网站都是根据IP来ban的。

使用 Crawlera（专用于爬虫的代理组件），正确配置和设置下载中间件后，项目所有的request都是通过crawlera发出。

DOWNLOADER_MIDDLEWARES = {
    'scrapy_crawlera.CrawleraMiddleware': 600
}

CRAWLERA_ENABLED = True
CRAWLERA_USER = '注册/购买的UserKey'
CRAWLERA_PASS = '注册/购买的Password'

猜你喜欢

转载自blog.csdn.net/ithongchou/article/details/83038991

反反爬虫相关机制

响应者链及相关机制总结

scrapy反反爬虫

如何反反爬虫

爬虫入门之反反爬虫机制cookie UA与中间件(十三)

爬虫进阶：反反爬虫技巧

爬虫进阶：反反爬虫技巧！

爬虫的概念、类型、反爬机制和反反爬策略及robots.txt协议

爬虫，反爬虫和反反爬虫

反反爬虫绕过无限debugger

C#中的GC与相关机制的浅析

scrapy爬虫之反反爬虫措施

今天说说反爬虫与反反爬虫

反反爬虫--破解字体加密

（反反爬虫）携程酒店的eleven

Downloader Middlewares反反爬虫【学习笔记04】

python反反爬虫系列一（文本混淆）

爬虫反反爬学习资料整理

【爬虫】之反爬与反反爬

Python爬虫之路-反爬与反反爬

python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题

网站有反爬机制你的爬虫功夫就不好使了？那是你不会反反爬！【Python解决网站的反爬机制战略总结】

python爬虫之反爬虫与反反爬虫持续更新

简析爬虫、反爬虫、反反爬虫之间的抗衡

详解爬虫策略，反爬虫策略，反反爬爬虫策略

[转] 关于社交游戏基于用户粘性相关机制设置的思考

基于IDEA搭建springboot+redis环境，深入了解相关机制

AutoSAR系列讲解（实践篇）9.4-通信相关机制（下）

AutoSAR系列讲解（实践篇）9.3-通信相关机制（上）

day067 mongoDB_advance&反爬虫&反反爬虫

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)