scrapy多个爬虫公用一些中间件、pipelines - 代码天地

scrapy多个爬虫公用一些中间件、pipelines

企业开发 2018-05-10 10:40:15 阅读次数: 3

使用python3

请求头headers：user-agent、代理ip，这些放在一个工程项目里，有的爬虫是需要中间件的或者根据反爬添加相应的条件，那这样的情况下怎么办？

1.中间件处理默认带上请求头，不带启用ip代理功能

spiders文件夹下的爬虫类添加属性

中间件处理

这样不管爬虫那边有没有添加属性，middlewares里就是会默认

2.有些情况下请求头会带上cookie、referer，这样的话，只需要user_agent = False，这样在爬虫里面编写自己需要的headers

那么多的爬虫，每一个可能数据格式、存数据库不同，怎么区分它们呢？

1.在items里面做文章

每一个爬虫的数据可能都要创建items类，我们把公用的部分提出来，写到基类里面去！

2.根据items判断pipelines入库

一定是items项目类，不能使用基类！

3.或者根据文件的文件名、类名、方法，判断启用那个，这种适合很多类型的情况下

建个文件夹，

==>>>

然后在改一些相应的源码，这里不详细说明！

想了解更多+vx 781816703

猜你喜欢

转载自blog.51cto.com/12925223/2105904

scrapy多个爬虫公用一些中间件、pipelines

Python爬虫：scrapy中间件及一些参数

爬虫 - Scrapy中间件

爬虫-scrapy的中间件

Scrapy之下载中间件与爬虫中间件

scrapy 爬虫中间件 httperror中间件

Scrapy的中间件（一）

爬虫 - scrapy之中间件

爬虫（十四）：scrapy下载中间件

scrapy爬虫中间件-urlLength

scrapy 爬虫中间件 deepth深度

scrapy爬虫-代理IP中间件

Oracle中间件的一些名词缩写

cookie 和 session 的一些事中间件

对koa-static中间件的一些理解

Koa2常用的一些中间件

scrapy 中间件

scrapy中间件

Scrapy的中间件

彻底搞懂Scrapy的中间件（一）

scrapy学习2 爬虫中间件，下载器中间件之添加代理

scrapy 爬虫中间件-offsite和refer中间件

【爬虫】Scrapy 自定义下载器中间件

python爬虫之scrapy中间件介绍

爬虫2.5-scrapy框架-下载中间件

scrapy 爬虫学习二[中间件的学习]

python笔记(爬虫 Scrapy 中间件定制命令)

python爬虫常用之Scrapy 中间件

scrapy之 Spider Middleware（爬虫中间件）

scrapy之中间件

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)