pyhton爬虫学习（十五）：scrapy框架用户代理和ip代理的使用

当我们要爬取大量网页的时候，可能会收到对方服务器的限制，从而被禁止。

那么我们应该如何应对这些反爬虫机制呢

scrapy项目中可以有很多方法避免被禁止。其中两个比较好用的方式，就是使用用户代理池和ip代理池。因为大部分网站都是通过这两种方式进行反爬的。

那么具体怎么使用呢，这里我们就用用到scrapy的中间件middlewares。因为在scrapy中两者的使用方式大同小异，这里就合在一起讲。

首先是在setting.py设置用户代理池和ip代理池的变量，在其他py文件也可以，只要能被调用到就行。如下

设置IP池

IPPOOL = [{"ipaddr": "112.85.131.19:9999"},
          {"ipaddr": "112.85.170.24:9999"},
          {"ipaddr": "222.217.68.51:54355"}]

设置用户代理

USER_AGENTS = [
        "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)",
        "Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)",
        "Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN) AppleWebKit/523.15 (KHTML, like Gecko, Safari/419.3) Arora/0.3 (Change: 287 c9dfb30)",
        "Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.2pre) Gecko/20070215 K-Ninja/2.1.1",
        "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9) Gecko/20080705 Firefox/3.0 Kapiko/3.0",
        "Mozilla/5.0 (X11; Linux i686; U;) Gecko/20070322 Kazehakase/0.4.5"]

创建的scrapy项目中，一般已经建好了一个中间件文件middlewares.py。打开该文件，加入自定义的对应的用户代理和ip代理中间件的类。如下

# -*- coding: utf-8 -*-
# 导入随机模块
import random
# 导入settings文件中的IPPOOL
from .settings import IPPOOL
# 导入settings文件中的USER_AGENTS
from .settings import USER_AGENTS
# 导入官方文档对应的HttpProxyMiddleware
from scrapy.downloadermiddlewares.httpproxy import HttpProxyMiddleware
# 导入官方文档对应的UserAgentMiddleware
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class IPPOOlS(HttpProxyMiddleware):
    # 初始化
   def __init__(self, ip=''):
        self.ip = ip
        # 请求处理
   def process_request(self, request, spider):
        # 先随机选择一个IP
        thisip = random.choice(IPPOOL)
        print("当前使用IP是："+ thisip["ipaddr"])
        request.meta["proxy"] = "http://"+thisip["ipaddr"]

class RandomUserAgent(UserAgentMiddleware):
    # 初始化
   def __init__(self, ua=''):
        self.ua = ua
        # 请求处理
   def process_request(self, request, spider):
        # 先随机选择一个IP
        thisua = random.choice(USER_AGENTS)
        print("当前使用的用户代理是："+ thisua)
        # 随机设置Request报头header的User-Agent
        request.headers.setdefault('User-Agent', thisua)

HttpProxyMiddleware、UserAgentMiddleware分别是官方自带的用户代理下载中间件和ip代理下载中间件，这里直接继承他们实现自定义即可。

这里重点讲一下下载中间件的两个方法：

process_request(request, spider)

当每个request通过下载中间件时，该方法被调用。

process_request() 必须返回以下其中之一：一个 None 、一个 Response 对象、一个 Request 对象或 raise IgnoreRequest:

如果其返回 None ，Scrapy将继续处理该request，执行其他的中间件的相应方法，直到合适的下载器处理函数(download handler)被调用，该request被执行(其response被下载)。
如果其返回 Response 对象，Scrapy将不会调用任何其他的 process_request() 或 process_exception() 方法，或相应地下载函数；其将返回该response。已安装的中间件的 process_response() 方法则会在每个response返回时被调用。
如果其返回 Request 对象，Scrapy则停止调用 process_request方法并重新调度返回的request。当新返回的request被执行后，相应地中间件链将会根据下载的response被调用。
如果其raise一个 IgnoreRequest 异常，则安装的下载中间件的 process_exception() 方法会被调用。如果没有任何一个方法处理该异常，则request的errback(Request.errback)方法会被调用。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。
参数:
request (Request 对象) – 处理的request
spider (Spider 对象) – 该request对应的spider

process_response(request, response, spider)

当下载器完成http请求，传递响应给引擎的时候调用
process_response() 必须返回以下其中之一: 返回一个 Response 对象、返回一个 Request 对象或raise一个 IgnoreRequest 异常。

如果其返回一个 Response (可以与传入的response相同，也可以是全新的对象)，该response会被在链中的其他中间件的 process_response() 方法处理。
如果其返回一个 Request 对象，则中间件链停止，返回的request会被重新调度下载。处理类似于 process_request() 返回request所做的那样。
如果其抛出一个 IgnoreRequest 异常，则调用request的errback(Request.errback)。如果没有代码处理抛出的异常，则该异常被忽略且不记录(不同于其他异常那样)。
参数:
request (Request 对象) – response所对应的request
response (Response 对象) – 被处理的response
spider (Spider 对象) – response所对应的spider

添加完上面两个自定义中间件的类，回到到settings.py文件，进行中间件的配置，找到

# DOWNLOADER_MIDDLEWARES = {
   # 'hello.middlewares.HelloDownloaderMiddleware': 543,
# }

修改为

DOWNLOADER_MIDDLEWARES = {
   # 'hello.middlewares.HelloDownloaderMiddleware': 543,
     'hello.middlewares.RandomUserAgent': 500,
     'hello.middlewares.IPPOOlS' : 600
}

大家注意到上面的数字，其实就是中间件执行的顺序。数值小的先开始执行。
这样用户代理和ip代理就算配置完了，我们可以开始运行爬虫进行测验。如果还不知道怎么创建和运行scrapy项目，请参看这片文章：pyhton爬虫学习（十四）：scrapy简单实例的创建和运行

这里把start_url改成
start_urls = [‘http://www.sina.com/’,‘http://www.baidu.com/’,‘http://www.qq.com/’]

主要是为了多爬行几个网址，才能验证的出随机选择的ip代理和用户代理

通过scrapy crawl baiduSpider --nolog命令运行爬虫,就会开始打印如下：

$ scrapy crawl baiduSpider --nolog
当前使用的用户代理是：Mozilla/5.0 (X11; U; Linux; en-US) AppleWebKit/527+ (KHTML, like Gecko, Safari/419.3) Arora/0.6
当前使用IP是：112.85.170.24:9999
当前使用的用户代理是：Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0T CLR 1.0.3705; .NET CLR 1.1.4322)
当前使用IP是：222.217.68.51:54355
当前使用的用户代理是：Mozilla/4.0 (compatible; MSIE 7.0b; Windows NT 5.2; .NET CLR 1.1.4322; .NET CLR 2.0.50727; InfoPath.2; .NET CLR 3.0.04506.30)
当前使用IP是：112.85.170.24:9999
[]
[]
[]

当然要特别注意。如果代理ip地址失效，请求是不成功的。就打印不出对应的log，可以更换ip解决。

欢迎关注本人公众号和小程序，谢谢
在这里插入图片描述

在这里插入图片描述