Scrapy中Chrome和PhantomJS设置代理

需求是对一些小规模的数据，在搜狗微信上搜索关键词的文章数量。
为了避开搜狗非人的爬虫检测策略。我采用了 Selenium来完成这个业务。

首先在 middlewares 定义了一个 WebDriverMiddleware 中间键：
在这里插入图片描述
settings 中需要开启中间键：

在scrapy中的中间键定义Webdriver，这样在每次请求都会切换IP 启动驱动。
下面分别介绍下两种驱动设置代理的方法：

Chrome ：

from selenium import webdriver
from scrapy.http import HtmlResponse
from selenium.webdriver import ChromeOptions
from scrapy.downloadermiddlewares.retry import RetryMiddleware

class WebDriverMiddleware(RetryMiddleware):	  								   # RetryMiddleware 重试类

    option = ChromeOptions()													# 实例化驱动通信参数
    option.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2}) #不加载图片
    option.add_argument('connection="close"')									# 关闭连接状态
    option.add_experimental_option('excludeSwitches', ['enable-automation'])	# 开发者模式（可不使用）
    
    def process_request(self, request, spider):
    	if spider.name  == 'SouGou_Wechect':
    		proxies = '111.11.11.1:1111'		
    		self.option.add_argument('--proxy-server=http://{}'.format(proxies)) # 添加代理
            browser = webdriver.Chrome(options=self.option) 
            browser.get(request.url)
            data = browser.page_source.encode('utf-8')
            browser.quit()
            return HtmlResponse(request.url, body=data, encoding='utf-8', request=request)

	# TODO 当IP被ban掉之后，返回request，重新请求 
    def process_response(self, request, response, spider):
        if spider.name  == 'SouGou_Wechect':
            proxy_error = re.findall('我们的系统检测到您网络中存在异常访问请求',response.text,re.S)
            if proxy_error:
                return self._retry(request, response.body, spider) or response
            else:
                return response

完成了，在spider中，只需要调用 respnse.body 就可以获取请求到的页面内容了。
在这里插入图片描述

PhantomJS：

其实基本上是一样的，自行查看。

import re 
from selenium import webdriver 
from scrapy.http import HtmlResponse 
from scrapy.downloadermiddlewares.retry import RetryMiddleware 
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities

class WebDriverMiddleware(RetryMiddleware):

    def process_request(self, request, spider):
        if spider.name  == 'SouGou_Wechect':
            headers = {
                'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
                'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3',
                'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/603.2.4 (KHTML, like Gecko) Version/10.1.1 Safari/603.2.4',
                'Connection': 'close'
                		}
            cap = DesiredCapabilities.PHANTOMJS.copy()
            for key, value in headers.items():
                cap['phantomjs.page.customHeaders.{}'.format(
                    key)] = value
            browser = webdriver.PhantomJS(
	            				desired_capabilities=cap,						# 设置请求头部
			             		service_args= [
			               	     '--proxy=%s' % ‘111.11.11.1:1111’,				# 设置代理IP
			                     '--proxy-type=https',							# 声明代理方法
			                    '--load-images=no',								# 关闭图片加载
			                                ]
                                          ) 
            browser.get(request.url)
            data = browser.page_source
            data = data.encode('utf-8')
            browser.quit()
            return HtmlResponse(request.url, body=data, encoding='utf-8', request=request)

    def process_response(self, request, response, spider):
        if spider.name  == 'SouGou_Wechect':
            proxy_error = re.findall('我们的系统检测到您网络中存在异常访问请求',response.text,re.S)
            if proxy_error:
                return self._retry(request, response.body, spider) or response
            else:
                return response

考古学家lx 博客专家

发布了187 篇原创文章 · 获赞 1055 · 访问量 35万+

他的留言板关注

Scrapy中Chrome和PhantomJS设置代理

Chrome ：

PhantomJS：

猜你喜欢