基于Scrapy实现Scrapy_plus框架 - 代码天地

基于Scrapy实现Scrapy_plus框架

其他 2018-09-16 19:07:48 阅读次数: 0

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/chenhua1125/article/details/80877388

源码Github链接https://github.com/ChenJhua/Projects/tree/master/Project

首先分析Scrapy的流程

这里写图片描述

从流程中抽取对象

三个内置对象：

 请求对象(Request)
 响应对象(Response)
 数据对象(Item)

五个核心组件：

 爬虫组件
     构建请求信息(初始的)，也就是生成请求对象(Request)
     解析响应对象，返回数据对象(Item)或者新的请求对象(Request)
 调度器组件
     缓存请求对象(Request)，并为下载器提供请求对象，实现请求的调度
     对请求对象进行去重判断
 下载器组件
     根据请求对象(Request)，发起HTTP、HTTPS网络请求，拿到HTTP、HTTPS响应，构建响应对象(Response)并返回
 管道组件
     负责处理数据对象(Item)
 引擎组件
     负责驱动各大组件，通过调用各自对外提供的API接口，实现它们之间的交互和协作
     提供整个框架的启动入口

两个中间件：

 爬虫中间件
     对请求对象和数据对象进行预处理

 下载器中间件
     对请求对象和响应对象进行预处理

五个核心模块和三个内置的对象是关键模块，需要优先实现
先抛开中间件，分析下它们之间的逻辑关系是：

构造spider中start_urls中的请求
传递给调取器进行保存，之后从中取出
取出的request对象交给下载组件进行下载，返回response
response交给爬虫模块进行解析，提取结果
如果结果是request对象，重新交给调度器，如果结果是item对象，交给管道处理

以上的逻辑是在引擎中完成的
对应的他们在引擎中的逻辑如下图：

这里写图片描述

源码目录结构图

Project

这里写图片描述

scrapy_plus

这里写图片描述

具体实现看Github的代码，就不在这里复制粘贴了

猜你喜欢

转载自blog.csdn.net/chenhua1125/article/details/80877388

基于Scrapy实现Scrapy_plus框架

基于Scrapy框架实现网络爬虫-Python

Scrapy框架 Scrapy框架

基于Scrapy框架的简单爬虫

【Scrapy框架基于scrapy-redis实现分布式爬虫】

【Python_Scrapy学习笔记（十三）】基于Scrapy框架的图片管道实现图片抓取

【Python_Scrapy学习笔记（十二）】基于Scrapy框架实现POST请求爬虫

Scrapy框架之基于RedisSpider实现的分布式爬虫

scrapy 初识 scrapy框架

【Python_Scrapy学习笔记（十四）】基于Scrapy框架的文件管道实现文件抓取(基于Scrapy框架实现多级页面的抓取)

Scrapy 框架

scrapy框架

【Scrapy框架基于scrapy-redis实现分布式爬虫】 -- 2019-08-07 10:14:58

基于Scrapy框架的网络爬虫搭建

基于Scrapy框架编写爬虫项目

基于Python框架Scrapy爬虫示例

基于Scrapy框架的增量式爬虫

基于scrapy框架的分布式爬虫

基于scrapy框架的爬虫项目（一）

Scrapy框架安装与使用（基于windows系统）

基于Scrapy框架的网络爬虫开发流程

基于scrapy与xslt的通用爬虫框架

Scrapy框架（一）——初始Scrapy

[爬虫框架scrapy]scrapy的安装

爬虫进阶之Scrapy框架原理及实现

scrapy框架实现爬虫项目演示

【Scrapy框架实现发送POST请求】

使用Scrapy框架实现爬取

Scrapy框架实现持久化存储

基于Scrapy淘宝全站Spider设计与实现

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)