scrapy基础操作教程（实例）

其他 2020-03-30 14:58:17 阅读次数: 0

scrapy教程

我通过一个爬取百度贴吧hello吧页面源码的简单爬虫来讲解

Scrapy架构(5+2结构)

Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理。
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：一个可以自定扩展和操作引擎和Spider中间通信的功能组件。
在这里插入图片描述

一、安装scrapy

1.通过pip安装

pip install scrapy

二、创建工程

Scrapy 常用命令
在这里插入图片描述
步骤1：
自己指定一个目录下创建一个新工程，输入命令行
比如在E盘根目录下创建
在根目录下Shift+右键，打开PS窗口
输入命令行

scrapy startproject hello

当出现下面反应证明成功建立工程（我建立了一个hello工程）
在这里插入图片描述
步骤2：（该步骤也可以手工完成，这里就不说了）
在工程中产生一个scrapy爬虫
首先进入工程目录,继续输入命令行

cd hello

在这里插入图片描述
然后在执行如下命令(生成一个名称为baidutieba的spider)：

scrapy genspider baidutieba baidu.com

在这里插入图片描述
生成的baidutieba.py文件在hello文件里的spiders目录下

三、爬取百度hello吧页面源码实例编写

打开baidutieba.py文件进行编写爬取代码：
改写成如下代码
在这里插入图片描述
然后保存。
最后再用PS窗口命令行输入

scrapy crawl baidutieba

即如下图所示：
在这里插入图片描述
回车运行，最后会在hello目录下生成一个hello.txt的文件，里面就是百度贴吧hello吧页面的网页源码。

到此本次scrapy基础操作教程结束了

上一篇文章———>高响应比优先调度算法（HRRN）例题详解
下一篇文章———>正则表达式详解

全洛

发布了14 篇原创文章 · 获赞 16 · 访问量 499

私信关注

猜你喜欢

转载自blog.csdn.net/weixin_43347550/article/details/105142790

scrapy基础操作教程（实例）

Scrapy 安装及基础操作

scrapy基础之静态网页实例

Docker - 基础操作与实例

爬虫实例基础教程

Python爬虫学习笔记(实例：scrapy框架基础)

docker基础镜像操作实例

Scrapy教程

scrapy爬取天天基金网站基金基础数据教程

jQuery操作cookie方法实例教程

mysql join操作【实例教程】

Scrapy基础

Scrapy 基础

Spider学习笔记（九）:Scrapy框架的基础操作

SpringMVC 基础教程简单入门实例

Mongoose使用教程和基础实例

Scrapy spider实例

python Scrapy 爬虫实例

简单scrapy框架实例

Scrapy-Xpath 实例

简单的scrapy实例

Scrapy爬虫简单实例

MySQL之实例学习基础操作

nodejs编写实例基础操作

Scrapy安装、爬虫入门教程、爬虫实例（豆瓣电影爬虫）

Maya 基础教程、基础操作讲解

Scrapy入门教程

Miniconda安装scrapy教程

scrapy安装教程

【爬虫】Python Scrapy 教程

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)