scrapy中间件(fake_useragent使用 + ip代理设置) - 代码天地

scrapy中间件(fake_useragent使用 + ip代理设置)

其他 2020-04-07 10:27:54 阅读次数: 0

随机用户代理

from fake_useragent import UserAgent

headers = {
    "User-Agent": UserAgent().chrome
}


from scrapy import signals
from fake_useragent import UserAgent
from scrapy.exceptions import IgnoreRequest

class RandomUserAgentMiddleware(object):

    def process_request(self, request, spider):
        if spider.name =='bd':
            ua = UserAgent(verify_ssl=False)      //切记切记这里一定要加verify_ssl=False，都是泪的教训啊~~~~
            request.headers['User-Agent'] = ua.random
            return None
        else:
            raise IgnoreRequest

    def process_response(self, request, response, spider):
        if spider.name =='bd':
            # print(response)
            print(request.headers["User-Agent"])
            return response
        else:
            raise IgnoreRequest

    def process_exception(self, request, exception, spider):
        pass

设置ip代理中间件

import requests

class ProxyMiddleware(object):
    def __init__(self, proxy_pool_url):
        self.proxy_pool_url = proxy_pool_url

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            proxy_pool_url=crawler.settings.get('PROXY_POOL_URL')
        )

    def _get_proxy(self):
        try:
            proxy = requests.get(proxy_pool_url)
            return proxy.text
        except ConnectionError:
            return None

      # 添加代理，需要在request的meta信息中添加proxy字段
      # 代理的形式为: 协议+ip地址+端口
    def process_response(self, request, response, spider):
        if response.status != 200:
            logger.warning('Need use proxy ~~~')
            request.meta["proxy"] = 'http://' + self._get_proxy()
            return request
        else:
            return response

Leadingme

发布了54 篇原创文章 · 获赞 24 · 访问量 3万+

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43388615/article/details/105102493

scrapy中间件(fake_useragent使用 + ip代理设置)

Python scrapy 伪装代理和fake_userAgent的使用

scrapy 伪装代理和 fake_userAgent 的使用

scrapy爬虫-代理IP中间件

scrapy代理ip池中间件

scrapy 设置ip代理

设置代理 IP | Requests & Scrapy

scrapy中自定义下载中间件设置动态User-Agent和代理ip

Scrapy爬虫框架之下载器中间件（可设置随机请求头和随机代理IP）

Scrapy代理和中间件

scrapy框架中间件配置代理

Scrapy 框架中间件代理IP 提高效率

写一个scrapy中间件--ip代理池

python 爬虫 7 （scrapy架构、中间件、动态ip代理池）

Scrapy 扩展中间件: 针对特定响应状态码，使用代理重新请求

scrapy中间件中使用selenium切换ip

scrapy学习2 爬虫中间件，下载器中间件之添加代理

Scrapy之下载中间件中的代理中间件HttpProxyMiddleware

Python 设置随机 User-Agent （利用 fake_useragent包）

scrapy下载中间件,UA池和代理池

scrapy中设置IP代理池（自定义IP代理池）

fake_useragent：

Scrapy学习篇（十二）之设置随机IP代理（IPProxy）

Python爬虫之scrapy框架中ip代理池的设置

scrapy user-agent和IP 代理的设置

pyhton2爬虫爬IP IP代理池 urllib2设置 scrapy设置

IP代理中间件和user-agent中间件的编写

scrapy中间键如何使用代理IP和用户代理

Java中如何设置使用代理IP发送网络请求

设置HTTP代理IP和不使用有何不同？

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)