Scrapy启用下载中间件时无法写入pipeline

企业开发 2023-07-15 19:02:01 阅读次数: 0

问题描述

使用Scrapy在爬取百度的过程中，在下载中间件中加入Selenium返回加载好的页面并解析，但是使用pipeline无法把爬到的数据写入文件

探索过程

已经设置pipelines.py文件
已经在settings.py中打开管道
spider文件中的处理函数parse()写了返回语句，控制台可以正常打印爬到的数据
到此怀疑是项目框架出了问题，新建一个Scrapy project，写一个最简单的spider和pipeline文件，运行后发现可以写入
框架没有问题，对比两个项目，新建的这个项目没有开中间件，故怀疑是中间件的问题，将原项目的下载中间件注释掉，重新尝试，发现可以写入数据
将中间件复制到新建项目中运行，发现仍然可以写入文件，两个中间件无任何差异，故比较两者spider文件的区别，发现start_url字段是不同的，原项目是'https://www.baidu.com/'，而新项目是'https://baidu.com/'

问题原因

在Scrapy的下载中间件中，每一次进行的请求，都可以设置通过中间件接管，本项目中我希望Selenium接管我第一次打开的百度的页面，打开后返回现成的网页内容给我，于是写了这么一个语句：
在这里插入图片描述
当我请求的url是'https://www.baidu.com/'的时候才会交给Selenium接管，为了和click_page_url保持一致，我在spider文件中的start_url字段中也写入'https://www.baidu.com/'，没想到无法使用pipeline，更改成'https://baidu.com/'后，问题解决，可以写入，检查了中间件返回的response的url，仍然是
在这里插入图片描述
故暂不清楚为什么加上一个www域名就会影响pipeline的写入

猜你喜欢

转载自blog.csdn.net/qq_41983842/article/details/107866628

Scrapy启用下载中间件时无法写入pipeline

爬虫框架Scrapy（三）：Scrapy中的管道pipeline+下载中间件middleware

Scrapy之下载中间件与爬虫中间件

scrapy下载中间件源码浅析

Scrapy-下载中间件

(10).scrapy配置下载中间件

爬虫（十四）：scrapy下载中间件

scrapy-下载器中间件

scrapy 下载中间件总结

scrapy中的下载器中间件

scrapy框架之下载中间件

scrapy 下载器中间件

scrapy专题（二）：下载中间件

scrapy框架【下载中间件】 scrapy框架之下载中间件

scrapy 中间件

scrapy中间件

Scrapy的中间件

scrapy学习2 爬虫中间件，下载器中间件之添加代理

Scrapy之下载中间件中的代理中间件HttpProxyMiddleware

scrapy之下载中间件使用案例：

scrapy对接selenium（下载中间件的使用）

【爬虫】Scrapy 自定义下载器中间件

爬虫2.5-scrapy框架-下载中间件

Scrapy下载器中间件用法示例

scrapy下载中间件,UA池和代理池

Scrapy--下载器中间件(Downloader Middleware)

python之scrapy模块下载中间件

下载中间件

scrapy之中间件

爬虫 - Scrapy中间件

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)