Python爬虫：防止爬虫被禁的策略 - 代码天地

Python爬虫：防止爬虫被禁的策略

编程语言 2018-06-23 15:36:55 阅读次数: 2

爬虫策略:

1、动态User-Agent（随机切换User-Agent，模拟不同用户的浏览器信息）,使用中间件

class RandomUserAgentMiddleware(object):
    def process_request(self, request, spider):
        request.headers.setdefault('User-Agent', "xxx")

2、禁用Cookies（也就是不启用cookies middleware，不向Server发送cookies，有些网站通过cookie的使用发现爬虫行为）可以通过COOKIES_ENABLED 控制 CookiesMiddleware 开启或关闭

# 禁用cookies，防止某些网站根据Cookie来封锁爬虫。
COOKIES_ENABLED = False

3、 延迟下载（防止访问过于频繁，设置为 2秒或更高）

# 设置下载延迟
DOWNLOAD_DELAY = 3

4、 缓存数据 Google Cache 和 Baidu Cache：如果可能的话，使用谷歌/百度等搜索引擎服务器页面缓存获取页面数据。

5、IP地址池：VPN和代理IP，现在大部分网站都是根据IP来ban的。

class RandomProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta["proxy"] = "127.0.0.1:8888"

6、 Crawlera（专用于爬虫的代理组件），正确配置和设置下载中间件后，项目所有的request都是通过crawlera发出。

DOWNLOADER_MIDDLEWARES = {
    'scrapy_crawlera.CrawleraMiddleware': 600
}

CRAWLERA_ENABLED = True
CRAWLERA_USER = '注册/购买的UserKey'
CRAWLERA_PASS = '注册/购买的Password'

参考

爬虫框架Scrapy之Downloader Middlewares

下载器中间件(Downloader Middleware)

猜你喜欢

转载自blog.csdn.net/mouday/article/details/80777256

Python爬虫：防止爬虫被禁的策略

scrapy防止爬虫被禁的策略

网络爬虫防止被封的策略

防止python爬虫

防止爬虫被反几个常见策略

Python爬虫基础策略

python爬虫防止IP被封

Python爬虫实战：如何避免被禁止请求

爬虫如何避免被禁止

python爬虫去重策略

scrapy基础知识之防止爬虫被反的几个策略

python爬虫教程：python解决网站的反爬虫策略总结

爬虫IP被禁的简单解决方法

抖音爬虫教程，python爬虫采集反爬策略

Python爬虫中的数据存储和反爬虫策略

防止爬虫的方法

python学习笔记——爬虫的抓取策略

python爬虫采集反爬策略

详解爬虫策略，反爬虫策略，反反爬爬虫策略

python爬虫防止IP被封的一些措施

网络爬虫策略介绍

关于反爬虫策略

网络爬虫简单策略

爬虫去重策略

爬虫去重策略：

反爬虫策略

网络爬虫的爬行策略

反爬虫策略实例

网络爬虫的抓取策略

爬虫-反扒策略

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

laravle中orm简单的增删改查

文本分类特征选取之CHI开方检验

Spark核心编程-WordCount

大数据开发实战系列之电信客服(1)

读书笔记 - 把时间当作朋友 by 李笑来

python 笔记--if else

SpringBoot/Mybatis/Druid, 多数据源MultiDataSource配置思路

排序三个整数

redis集群搭建【2】-Windows中Redis集群搭建

STM32F030驱动TM1650点亮4联数码管

每日归档

更多

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)