scrapy框架简单了解 - 代码天地

scrapy框架简单了解

其他 2019-02-24 12:09:04 阅读次数: 0

scrapy:是一个遍历爬行网站，分析获取数据而设计的应用程序框架，原本设计用于屏幕抓取（网络抓取）也可以用来访问api来提取数据；广泛应用与数据挖掘、信息处理、历史片打包等等。

“5+2”结构

在这里插入图片描述
Engine:不需要用户修改

控制所有模块之间的数据流
根据条件触发事件

Downloader:不需要用户修改

根据请求下载网页

Scheduler：不需要用户修改

对所有爬取请求调度管理

Downloader Middleware：

目的： 实施Engine，Scheduler和Downloader之间进行用户可配置的控制。

功能： 修改、丢弃、新增请求响应

可以编写配置代码，一般用户不对requests或response进行修改，不需要编写配置代码

Spider:

解析Downloader返回的响应（response）
产生爬取项（scraped item）
产生额外的爬去请求（request）

需要用户编写配置代码

Item Pipelines

以流水线方式处理Spider产生的爬取项
由一组操作顺序组成，类似流水线，每一个操作是一个iten pipeline类型
可能操作包括：清理、检验和查重爬取项中的HTML，数据将数据储存到数据库。

需要用户编写配置文件

Spider Middleware：

目的： 对用户和爬取项的再处理

功能： 修改、丢弃、新增请求响应或爬取项

用户可编写配置代码

requests	scrapy
网页级爬虫	网站级爬虫
功能库	框架
并发性考虑不足，性能较差	并发性好，性能较高
重点在于页面下载	重点在于爬虫结构
定制灵活	一般定制灵活，深度定制困难
上手简单	入门稍难

爬去大量网页建议采用scrapy框架
小请求爬取，建议requests
周期性，对爬取结果进行积累建议scrapy框架
定制程度高，建议自行搭建框架，requests>scrapy
scrapy命令行
在cmd中输入scrapy -h查看scrapy命令行
在这里插入图片描述

命令	说明	格式
startproject	创建新工程	scrapy startproject < name >[ dir ]
genspider	创建爬虫	scrapy genspider [ options ] < name > < domain >
settings	获得爬虫配置信息	scrapy settings [ options ]
crawl	运行爬虫	scrapy crawl < spider >
list	列出工程中所有爬虫	scrapy list
shell	启动url调试命令行	scrapy shell [ url ]

猜你喜欢

转载自blog.csdn.net/dldl1718/article/details/87349290

scrapy框架简单了解

简单scrapy框架实例

scrapy框架的简单使用

简单了解spring框架

scrapy爬虫框架简单实例

Scrapy框架简单爬虫demo

超简单的Scrapy爬虫框架

基于Scrapy框架的简单爬虫

Scrapy框架的学习(7. 了解Scrapy中的debug信息以及Scrapy shell的使用)

python scrapy框架的安装和简单使用

scrapy爬虫框架简单入门实例（一）

scrapy爬虫框架简单入门实例（二）

Python爬虫 --- 2.3 Scrapy 框架的简单使用

python Scrapy框架2—简单的数据抓取

Python爬虫框架scrapy简单学习

Python爬虫5.1 — scrapy框架简单入门

Scrapy框架 Scrapy框架

Day 44 爬虫_scrapy框架_深入了解

通过twisted来自己写scrapy框架来了解scrapy源码

Scrapy快速入门系列(1) | 一文带你快速了解Scrapy框架(版本2.3.0)

简单的了解 Python web框架的要点与好处

scrapy 初识 scrapy框架

scrapy框架

Scrapy 框架

利用scrapy框架实现一个简单的爬虫项目

Python 中scrapy 的框架安装以及简单介绍

Python爬虫框架--Scrapy安装以及简单实用

【简单解决 scrapy框架命令行不打出日志】

Scrapy入门：简单爬虫项目梳理整个框架操作流程

有关爬虫scrapy框架简单使用

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)