Python 分布式爬虫框架 Scrapy 4-5 css选择器实现字段解析 - 代码天地

Python 分布式爬虫框架 Scrapy 4-5 css选择器实现字段解析

其他 2020-01-22 09:11:30 阅读次数: 0

表达式	说明
*	选择所有节点
#container	选择id为container的节点
.container	选取所有class包含container的节点
li a	选取所有li下的所有a节点
ul + p	选择ul后面的第一个p元素
div#container > ul	选取id为container的div的第一个ul子元素
ul ~ p	选取与ul相邻的所有p元素
a[title]	选取所有有title属性的a元素
a[href=“http://jobbole.com”]	选取所有href属性为jobbole.com值的a元素
a[href*=”jobole”]	选取所有href属性包含jobbole的a元素
a[href^=“http”]	选取所有href属性值以http开头的a元素
a[href$=“.jpg”]	选取所有href属性值以.jpg结尾的a元素
input[type=radio]:checked	选择选中的radio的元素
div:not(#container)	选取所有id非container的div属性
li:nth-child(3)	选取第三个li元素
tr:nth-child(2n)	第偶数个tr

大家可以自行通过上一节的方式，使用css选择器实现字段解析。

css选择器内容丰富，上面只是部分功能。例如：

.a .b

表示class为a下的class为b的标签。

而：

.a.b

则表示class既有a又有b的标签。

需要说明的是，css选择器中有与xpath中的 /text() 功能一样的伪类选择器：

::text

此外还有一个::attr()伪类选择器，例如下面可以获取标签中的href属性的值：

::attr(href)

将这个加在css选择字符串的后方即可实现内容提取。

还有一点说明，python3将所有的字符编码都转为Unicode，这是py3与py2的区别。

最后要说的是，在解析时，有时id是与文章url挂钩的，此时id不具有通用性，不可作为筛选条件。

dmxjhg

发布了101 篇原创文章 · 获赞 26 · 访问量 1万+

私信关注

猜你喜欢

转载自blog.csdn.net/liujh_990807/article/details/100045408

Python 分布式爬虫框架 Scrapy 4-5 css选择器实现字段解析

Python 分布式爬虫框架 Scrapy 7-5 scrapy实现ip代理池

Python 分布式爬虫框架 Scrapy 4-4 xpath的使用方法以及字段提取

Python 分布式爬虫框架 Scrapy 4-3 使用pycharm调试scrapy的技巧

Python 分布式爬虫框架 Scrapy 4-2 Scrapy安装以及目录结构介绍

Python 分布式爬虫框架 Scrapy 4-8 items的设计

Python 分布式爬虫框架 Scrapy 4-14 阶段总结与后续问题

Python 分布式爬虫框架 Scrapy 4-13 ItemLoader

Python 分布式爬虫框架 Scrapy 4-12 通过pipeline保存数据到mysql

Python 分布式爬虫框架 Scrapy 4-10 保存item到json

Python 分布式爬虫框架 Scrapy 4-7 文章封面的保存

Python 分布式爬虫框架 Scrapy 5-1 session和cookies自动登录机制

Python之Scrapy框架Redis实现分布式爬虫详解

Python scrapy框架教学（五）：分布式爬虫

Python 分布式爬虫框架 Scrapy 4-1 待爬取网站及爬取策略说明

Python 分布式爬虫框架 Scrapy 7-4 通过download middleware随机切换User-agent

Python 分布式爬虫框架 Scrapy 4-9 图片下载以及图片路径的保存

Python 分布式爬虫框架 Scrapy 4-6 编写spider爬取所有文章

Scrapy框架之基于RedisSpider实现的分布式爬虫

Python爬虫之Scrapy框架系列（22）——初识分布式爬虫scrapy_redis

python爬虫入门 ✦ 乞丐版scrapy_redis分布式 + 增量式爬虫的实现

python爬虫之Scrapy分布式

Python爬虫框架 scrapy之xpath选择器 css选择器

Python 分布式爬虫框架 Scrapy 7-1 爬虫与反爬虫

Python 分布式爬虫框架 Scrapy 7-2 scrapy架构说明与源码结构

使用scrapy实现分布式爬虫

基于scrapy的分布式爬虫（4）：python 中的编码问题

【爬虫】Python Scrapy Selectors (选择器)

【Scrapy框架基于scrapy-redis实现分布式爬虫】

scrapy框架中间件的使用以及scrapy-redis实现分布式爬虫

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)