scrapy下载中间设置 - 代码天地

scrapy下载中间设置

其他 2018-12-09 22:06:19 阅读次数: 0

class ProxyMiddleWare(object):  
    """docstring for ProxyMiddleWare"""  
    def process_request(self,request, spider):  
        '''对request对象加上proxy'''  
        proxy = self.get_random_proxy()  
        print("this is request ip:"+proxy)  
        request.meta['proxy'] = proxy   


    def process_response(self, request, response, spider):  
        '''对返回的response处理'''  
        # 如果返回的response状态不是200，重新生成当前request对象  
        if response.status != 200:  
            proxy = self.get_random_proxy()  
            print("this is response ip:"+proxy)  
            # 对当前reque加上代理  
            request.meta['proxy'] = proxy   
            return request  
        return response  

    def get_random_proxy(self):  
        '''随机从文件中读取proxy'''  
        while 1:  
            with open('G:\\Scrapy_work\\myproxies\\myproxies\\proxies.txt', 'r') as f:  
                proxies = f.readlines()  
            if proxies:  
                break  
            else:  
                time.sleep(1)  
        proxy = random.choice(proxies).strip()  
        return proxy

猜你喜欢

转载自blog.csdn.net/jjjndk1314/article/details/80538285

scrapy下载中间设置

Scrapy——5 下载中间件常用函数、scrapy怎么对接selenium、常用的Setting内置设置有哪些

scrapy下载中间件源码浅析

Scrapy-下载中间件

(10).scrapy配置下载中间件

爬虫（十四）：scrapy下载中间件

scrapy-下载器中间件

scrapy 下载中间件总结

scrapy框架之下载中间件

scrapy中的下载器中间件

scrapy 下载器中间件

scrapy专题（二）：下载中间件

Scrapy之下载中间件与爬虫中间件

scrapy 图片下载设置

scrapy框架【下载中间件】 scrapy框架之下载中间件

scrapy中自定义下载中间件设置动态User-Agent和代理ip

Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理IP）

scrapy之下载中间件使用案例：

scrapy对接selenium（下载中间件的使用）

【爬虫】Scrapy 自定义下载器中间件

scrapy添加下载中间键 User-agent

爬虫2.5-scrapy框架-下载中间件

Scrapy下载器中间件用法示例

scrapy下载中间件,UA池和代理池

Scrapy--下载器中间件(Downloader Middleware)

python之scrapy模块下载中间件

Scrapy启用下载中间件时无法写入pipeline

12.Scrapy与mongodb交互和设置中间键

03-下载中间键设置

Scrapy框架实战（二）：详解 Scrapy 下载器中间件

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)