scrapy框架中间件配置代理 - 代码天地

scrapy框架中间件配置代理

其他 2019-03-10 16:54:42 阅读次数: 0

scrapy框架中间件配置代理
import random
#代理池
PROXY_http = [
'106.240.254.138:80',
'211.24.102.168:80',
]
PROXY_https =[
'218.57.146.212:8888',
'139.217.24.50:3128',
]
class XiaohuaproDownloaderMiddleware(object):
def process_request(self, request, spider):

# 代理访问，配置代理池random 随机选取
h =request.url.split(':')[0]
if h == 'http':
ip = random.choice(PROXY_http)
request.meta['proxy'] = 'http://'+ip
else:
ip = random.choice(PROXY_https)
request.meta['proxy'] = 'https://'+ip
# print(request)
return None

#使用UA伪装配置爬取数据
首先配置一个UA池
user_agent_list = [
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
。。。#多个User-Agent
]
user_agent_list = [
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',
]
class XiaohuaproDownloaderMiddleware(object):
63
def process_request(self, request, spider):

# 代理访问，配置代理池random 随机选取
h =request.url.split(':')[0]
if h == 'http':
ip = random.choice(PROXY_http)
request.meta['proxy'] = 'http://'+ip
else:
ip = random.choice(PROXY_https)
request.meta['proxy'] = 'https://'+ip

request.headers['User-Agent'] = random.choice(user_agent_list)
# print(request)
return None

猜你喜欢

转载自www.cnblogs.com/michael2018/p/10505745.html

scrapy框架中间件配置代理

Scrapy框架-中间件

scrapy框架的中间件

Scrapy代理和中间件

scrapy爬虫-代理IP中间件

scrapy代理ip池中间件

scrapy框架之下载中间件

Scrapy框架——中间件详解

(10).scrapy配置下载中间件

scrapy 中间件

scrapy中间件

Scrapy的中间件

scrapy框架【下载中间件】 scrapy框架之下载中间件

Scrapy 框架中间件代理IP 提高效率

scrapy学习2 爬虫中间件，下载器中间件之添加代理

Scrapy之下载中间件中的代理中间件HttpProxyMiddleware

scrapy下载中间件,UA池和代理池

爬虫2.5-scrapy框架-下载中间件

Scrapy 框架中间件，信号，定制命令

scrapy之中间件

爬虫 - Scrapy中间件

Scrapy中间件应用

scrapy中间件的简介

scrapy中间件的应用

爬虫-scrapy的中间件

09 scrapy中间件

Scrapy的中间件（一）

Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理IP）

Web应用开发框架-egg(三)03-基础功能——中间件之编写中间件、中间件的配置、使用中间件、在框架和插件中使用中间件 & 中间件的通用配置项

Scrapy之下载中间件与爬虫中间件

今日推荐

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

周排行

[编程题]学英语

[codeforces 1288A] Deadline 约数+模

Python的web开发

Docker在Centos 7上的部署

python编码

解决Ubuntu16.04 fatal error: json/json.h: No such file or directory

mysql并发插入

rest接口如何适应jsonp的方案

linux 终端上网设置

高数——等号两边同时求导、积分的解释

每日归档

更多

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)