python爬虫学习笔记六：Scrapy爬虫的使用步骤 - 代码天地

python爬虫学习笔记六：Scrapy爬虫的使用步骤

其他 2019-01-17 02:43:34 阅读次数: 0

版权声明：关注微信公众号：摸鱼科技资讯，联系我们 https://blog.csdn.net/qq_36949176/article/details/84595355

步骤1：创建一个工程和Spider模板

步骤2：编写Spider

步骤3：编写Item Pipeline

步骤4：优化配置策略

Scrapy爬虫的数据类型

Request类

class scrapy.http.Request()

*Request对象表示一个HTTP请求

*由Spider生成，由Downloader执行

request类

属性或方法	说明
.url	Request对应的请求URL地址
.method	对应的请求方法，‘GET’'POST'等
.headers	字典类型风格的请求头
.body	请求内容主体，字符串类型
.meta	用户添加的扩展信息，在Scrapy内部模块间传递信息使用
.copy()	复制该请求

Response类

class scrapy.http.Response()

*Response对象表示一个HTTP响应

*由Downloader生成，由Spider处理

Response类型

属性或方法	说明
.url	Response对应的URL地址
.status	HTTP状态码，默认值是200
.headers	Response对应的头部信息
.body	Response对应的内容信息，字符串类型
.flags	一组标记
.request	产生Response类型对应的Request对象
.copy()	复制该响应

Item类

class scrapy.item.Item()

*Item对象表示一个从HTML页面中提取的信息内容

*由Spider生成，由Item Pipeline处理

*Item类似字典类型，可以按照字典类型操作

Scrapy爬虫提取信息的方法

Scrapy爬虫支持多种HTML信息提取方法

*Beautiful Soup

*lxml

*re

*XPath Selector

*CSS Selector

我们介绍一下CSS Selector信息提取方法

CSS Selector的基本使用

<HTML>.CSS('a::attr(href)').extract() //通过标签名称，标签属性来设置相关信息

CSS Selector由W3C组织维护并规范

猜你喜欢

转载自blog.csdn.net/qq_36949176/article/details/84595355

python爬虫学习笔记六：Scrapy爬虫的使用步骤

python：爬虫：Scrapy爬虫的使用步骤

Python爬虫学习笔记（六）

【Python3 爬虫学习笔记】Scrapy框架的使用 4

【Python3 爬虫学习笔记】Scrapy框架的使用 3

Python爬虫之scrapy框架爬虫步骤

【python爬虫笔记】scrapy

Python爬虫框架Scrapy学习笔记原创

Python爬虫框架Scrapy学习笔记

Python学习笔记——爬虫之Scrapy框架

python爬虫--------scrapy学习笔记（二）

python爬虫------scrapy学习笔记（一）

python爬虫--------scrapy学习笔记（三）

python 爬虫框架 scrapy 学习笔记

python爬虫笔记（七）:使用Scrapy框架

Python爬虫————scrapy的使用

python爬虫——scrapy的使用

python爬虫 Scrapy使用步骤 DAY7

python网络爬虫学习笔记（六）：Requests库的使用

学习python爬虫步骤

python笔记(爬虫 Scrapy websocket)

爬虫学习笔记-Scrapy初识

爬虫学习笔记-Scrapy散记

学习笔记 scrapy 爬虫框架

【爬虫】python爬虫工具scrapy的安装使用

python爬虫 scrapy爬虫框架的基本使用

python：爬虫：Scrapy框架实例（详细步骤）

python爬虫学习(六)

python爬虫框架——Scrapy学习

Python Scrapy爬虫框架学习

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)