Scrapy 学习笔记（一）数据提取 - 代码天地

Scrapy 学习笔记（一）数据提取

其他 2018-07-06 11:45:14 阅读次数: 0

Scrapy 中常用的数据提取方式有三种：Css 选择器、XPath、正则表达式。

Css 选择器

Web 中的 Css 选择器，本来是用于实现在特定 DOM 元素上应用花括号内的样式这样一个功能的。
在爬虫中，我们可以用它来选择提取出需要的内容。Css 有非常丰富的功能，因为我们只用它提取数据，我们只会用到 Css 的选择器。

标签选择器：直接写标签名，比如title就表示选择 title 这个标签。
类选择器：以小数点开头，比如.nav就表示选择所有 class 属性为nav的 DOM 元素。
ID 选择器：以 # 开头，比如#content就表示选择 id 属性为content的 DOM 元素。（跟据 css 规范，id 属性值应该是唯一的，不能存在其他具有相同 id 的元素）
属性选择器：写在[]括号内，如a[href="https://example.org"]
伪元素选择器：伪元素选择器来自Css3规范，使用两个冒号引导。最常用的应该是title::text这个伪元素。（不过 css3 规范里好像没有 text 伪元素）
关系选择器：基于关系的选择器-MDN

XPath

直接看阮老师的吧：xpath路径表达式笔记 - 阮一峰

正则

略。。。

待续

参考

猜你喜欢

转载自www.cnblogs.com/kirito-c/p/9255530.html

Scrapy 学习笔记（一）数据提取

Scrapy 的学习笔记（一）

scrapy学习笔记（一）

Scrapy 笔记

scrapy笔记

Scrapy学习

scrapy框架Selector提取数据

Scrapy学习笔记-Selectors一

Scrapy爬虫笔记(scrapy、scrapy-redis、scrapyd部署scrapy)

scrapy（一）scrapy 安装问题

Scrapy框架（一）——初始Scrapy

Scrapy学习笔记(1) --Scrapy的介绍

Scrapy:学习笔记(2)——Scrapy项目

Scrapy学习笔记-Scrapy入门Spiders

Scrapy学习笔记-Scrapy入门Following links

Scrapy学习笔记

Scrapy框架学习笔记

scrapy 学习笔记1

scrapy 学习笔记

scrapy 笔记一

Scrapy框架学习（一）Scrapy框架介绍

scrapy 提取元素

Scrapy学习一

Scrapy学习（一）

Scrapy框架的学习（一）

scrapy 学习笔记2 数据持久化

scrapy 中用selector来提取数据的用法

在scrapy中使用Selector提取数据

如何使用scrapy中的ItemLoader提取数据？

scrapy 中selector对象提取数据。

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)