python-scrapy爬虫框架 - 代码天地

python-scrapy爬虫框架

其他 2020-01-24 10:37:53 阅读次数: 0

scrapy爬虫框架

1.Scrapy爬虫框架

scrapy 不是一个函数功能库，而是一个爬虫框架。
scrapy爬虫框架：
1. 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
2. .简单说爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫。
scrapy爬虫框架共包含七个部分（5+2结构），五个主体部分，两个中间件。数据流如图。
框架的入口SPIDERS，出口为ITEM PIPELINES，DOWNLOADER，ENGIN,SCHEDULER模块已经实现了，用户只需要编写ITEM PIPELINES和SPIDERS模块。SPIDERS提供需要访问的url链接，同时对网页进行解析，而ITEM PIPELINES对页面的后处理。
这种对模块代码的编写方式，也可以叫做配置。

2.模块介绍

Engin：控制所有模块之间的数据流，根据条件触发事件，不需要用户修改。
Downloader：根据请求下载页面，不需要用户修改。
Scheduler：对所有爬取请求进行调度管理，不需要用户修改。
中间件模块Downloader Middleware
1. 实施Engin，Scheduler和Downloader之间用户可配置的控制。
2. 通过中间件修改，丢弃，新增请求或响应。
Spider：解析Downloader返回的响应（Response），产生爬取项（scraped item）和爬取请求（Requset），是最核心单元，是需要用户编写主要模块。
Item Piplines:以流水线方式处理Spide产生的爬取项。有一组操作顺序组成，每个操作是一个Item Pipline类型。包括清理，检验和查重爬取项中的ITEM数据，将数据存储到数据库等操作。需人工配置。
Spider Middleware：
1. 对请求和爬取项再处理。
2. 通过中间件修改，丢弃，新增请求或爬取项。

3.requests库与Scarpy

相同点:都可以进行网页请求和爬取，是python的两个重要的爬虫实现路线；可用性好；都没有处理js，提交表单，应对验证码的功能；

requests VS. scrapy
requests	scrapy
网页级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能差	并发性好，性能较高
重点在页面下载	重点在爬虫结构
定制灵活	一般定制灵活，深度定制难
上手简单	入门稍难

小需求，推荐使用requests库，不太小的推荐使用scrapy框架。自搭框架建议使用requests。

TxyITxs

发布了89 篇原创文章 · 获赞 8 · 访问量 8894

私信关注

猜你喜欢

转载自blog.csdn.net/TxyITxs/article/details/94437481

python-scrapy爬虫框架

python-scrapy框架

python-scrapy爬虫框架爬取拉勾网招聘信息

#第6篇分享：python-scrapy框架爬虫-开启数据收集新时代（2）

python-scrapy配置

python-scrapy框架（三）Pipeline文件的用法讲解

python-scrapy 下载图片

scrapy 框架 python 爬虫

python爬虫-scrapy框架

python爬虫scrapy框架

Python爬虫框架—Scrapy

Python爬虫框架Scrapy

python爬虫--scrapy框架

python：爬虫：Scrapy框架

Python爬虫---scrapy框架

Python爬虫---scrapy框架

Python爬虫—scrapy框架

python爬虫-scrapy爬虫框架

Python-Scrapy安装辛酸史

python-scrapy安装及twisted问题

Python-scrapy创建基本项目

python-scrapy框架（一）Spider文件夹的用法讲解

python-scrapy框架（四）settings.py文件的用法详解实例

python爬虫框架——Scrapy学习

Python 爬虫（一）scrapy框架

Python之Scrapy爬虫框架

python爬虫框架scrapy介绍

Python Scrapy爬虫框架学习

Python爬虫框架Scrapy实例

Python爬虫框架Scrapy的使用

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

curl的POST请求，封装方法

8.1.1. Integer Types

Java基础 Day05(个人复习整理)

Python - Django - 中间件 process_exception

小L的试卷

【Shell编程】（函数）判断用户是否存在

python(css样式)

spring ant path 匹配原则 - 【笔记】

《JavaScript与JScript从入门到精通》(美)James.Jaworski.中译本.扫描版.pdf

Eclipse运行带参数的java程序

每日归档

更多

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)