scrapy CrawlSpider设置headers - 代码天地

scrapy CrawlSpider设置headers

其他 2021-01-27 07:50:00 阅读次数: 0

参考：
CrawlSpider带headers和cookies请求，解决302重定向和禁止访问问题

通常在使用CrawlSpider时，可以指定rules，但却没有指定headers、cookies的地方，我们可以在start_requests通过scrapy.Request指定headers和cookies，但是之后CrawlSpider在根据rules爬取的link请求新页面时，是没有携带headers的（默认会记住并携带cookie），我这边遇到的情况就是初始请求通过start_requests设置headers后可以正常访问，但是根据初始请求页面中提取的link则无法访问，返回403 forbidden，解决此问题亦可通过重写_build_request来为每个request请求设置headers，
综上可结合如下两种方式：
（1）在start_requests方法中通过scrapy.Request指定初始请求的headers和cookies
（2）重写_build_request来为之后的每个request请求设置headers
示例代码如下：

    # 在start_requests通过scrapy.Request指定headers和cookies
    def start_requests(self):
        start_urls = self.rules_json.get("start_urls")
        for url in start_urls:
            # yield scrapy.Request(url=url, headers={"hello": "world"}, cookies={"user": "小明"})
            # 设置爬取URL及headers, cookies
            yield scrapy.Request(url=url, headers=self.default_request_headers, cookies=self.default_request_cookies)

	# 重写_build_request来为每个request请求设置headers
    def _build_request(self, rule_index, link):
        return scrapy.Request(
            url=link.url,
            # 重置headers
            headers=self.default_request_headers,
            callback=self._callback,
            errback=self._errback,
            meta=dict(rule=rule_index, link_text=link.text),
        )

猜你喜欢

转载自blog.csdn.net/luo15242208310/article/details/112240255

scrapy CrawlSpider设置headers

scrapy的CrawlSpider类

scrapy原码解读---CrawlSpider

scrapy的CrawlSpider和cookie

scrapy框架之CrawlSpider

scrapy -->CrawlSpider 介绍

爬虫-Scrapy框架（CrawlSpider）

Scrapy_CrawlSpider

Scrapy框架中的CrawlSpider

Scrapy框架-CrawlSpider

scrapy框架之(CrawlSpider)

Scrapy爬虫之CrawlSpider

scrapy 中crawlspider 爬虫

Scrapy--CrawlSpider

Scrapy 爬虫模板--CrawlSpider

Scrapy中CrawlSpider

scrapy中Crawlspider的用法

Scrapy框架（CrawlSpider）

scrapy实践：headers伪造

Scrapy添加headers

使用scrapy shell时设置cookies和headers

scrapy框架中crawlspider的使用

Scrapy爬虫框架---CrawlSpider类

scrapy 中的CrawlSpider 类的介绍

scrapy crawlspider内置方法源码

三十三、scrapy的crawlspider爬虫

爬虫scrapy框架之CrawlSpider

14-scrapy框架(CrawlSpider)

scrapy爬虫框架(五)-CrawlSpider

Scrapy CrawlSpider介绍和使用

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)