Scrapy爬虫 -- 编写下载中间件，实现随机User-Agent - 代码天地

Scrapy爬虫 -- 编写下载中间件，实现随机User-Agent

其他 2018-11-16 12:17:41 阅读次数: 0

Scrapy爬虫 -- 编写下载中间件，实现随机User-Agent

实现步骤：

1. 在middlewares.p中，新建一个下载中间件；

2. 创建process_request方法（引擎发送request对象到下载器时的回调函数），实现随机User-Agent的功能；

3. 在settings.py文件中，配置新建的下载中间件。

实现随机User-Agent的中间件代码如下：

# middlewares.py
import random

class RandomUserAgentDownloaderMiddleware(object):
    """随机user-agent--下载中间件"""
    def process_request(self, request, spider):
        first_num = random.randint(55, 62)
        third_num = random.randint(0, 3200)
        fourth_num = random.randint(0, 140)
        os_type = [
            '(Windows NT 6.1; WOW64)', '(Windows NT 10.0; WOW64)', '(X11; Linux x86_64)',
            '(Macintosh; Intel Mac OS X 10_12_6)'
        ]
        chrome_version = 'Chrome/{}.0.{}.{}'.format(first_num, third_num, fourth_num)

        user_agent = ' '.join(['Mozilla/5.0', random.choice(os_type), 'AppleWebKit/537.36',
                       '(KHTML, like Gecko)', chrome_version, 'Safari/537.36']
                      )
        # 把每个request请求都设置为随机user_agent
        request.headers['User-Agent'] = user_agent

        return None    # 返回值为None, 表示继续请求

猜你喜欢

转载自blog.csdn.net/Refrain__WG/article/details/82346931

Scrapy爬虫 -- 编写下载中间件，实现随机User-Agent

Python之爬虫（二十五） Scrapy的中间件Downloader Middleware实现User-Agent随机切换

scrapy的中间件Downloader Middleware实现User-Agent随机切换

架构学习(四)：scrapy下载中间件实现动态切换User-Agent

Python爬虫从入门到放弃（二十三）之 Scrapy的中间件Downloader Middleware实现User-Agent随机切换

爬虫Spider 10 - scrapy框架 | 图片管道 | scrapy shell的使用 | 中间件(User-Agent , 随机代理) | Fiddler抓包工具 | 分布式爬虫

scrapy中自定义下载中间件设置动态User-Agent和代理ip

爬虫（十四）：scrapy下载中间件

爬虫 - Scrapy中间件

爬虫-scrapy的中间件

Scrapy之下载中间件与爬虫中间件

scrapy添加下载中间键 User-agent

爬虫 - scrapy之中间件

scrapy 爬虫中间件 deepth深度

scrapy爬虫中间件-urlLength

scrapy爬虫-代理IP中间件

【爬虫】Scrapy 自定义下载器中间件

爬虫2.5-scrapy框架-下载中间件

Scrapy 设置随机 User-Agent

scrapy随机更换User-Agent

Scrapy设置随机User-Agent

Scrapy设置User-Agent随机代理

scrapy 爬虫中间件 httperror中间件

scrapy爬虫编写流程

python - scrapy 爬虫框架 ( 起始url的实现，深度和优先级，下载中间件 )

scrapy学习2 爬虫中间件，下载器中间件之添加代理

python 爬虫随机换user-agent

Python 爬虫使用随机 User-Agent

python 爬虫随机获取User-Agent

爬虫框架Scrapy（三）：Scrapy中的管道pipeline+下载中间件middleware

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)