爬虫之XPath语法 - 代码天地

爬虫之XPath语法

编程语言 2018-09-09 22:38:48 阅读次数: 0

爬虫之XPath语法

1、简介

XPath即为XML路径语言（XML Path Language），它是一种用来确定XML文档中某部分位置的语言。
XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。

2、XPath节点

七种基本节点
- 元素、属性、文本
- 命名空间、处理指令、注释以及根节点
节点之间的关系
- 父、子、同胞（兄弟）、先辈、后代

3、XPath语法

3.1 路径表达式

nodename 选取此节点的所有子节点
/ 从根节点选取
// 从匹配的当前节点选择文档中的节点，而不考虑它们的位置。
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

3.2 路径表达式例子

bookstore 选取bookstore元素的所有子节点
/bookstore 选取根元素bookstore
/bookstore/book 选取属于bookstore的子元素的所有book元素
//book 选取所有book元素，而不管它们在文档中的位置。
bookstore//book 选择属于bookstore元素的后代的所有book元素
//@lang 选取名为lang的所有属性

3.3 谓语

嵌在[]中用来查找某个特定节点或包含某个指定值得节点。
/bookstore/book[1] 第一个book元素
/bookstore/book[last()] 最后一个book元素
/bookstore/book[position()<3] 选择前2个
//title[@lang] 选择所拥有有名为lang的属性的title元素
/bookstore/book[price>35.00]

4、XPath的使用

4.1 选取内容

获取文本内容用 text()
获取注释用 comment()
获取其它任何属性用@xx，如
- @href
- @src
- @value

comment['people_url'] = item.xpath('//header[@class="main-hd"]/a[1]/@href').extract()[0]

4.2 元素标签索引

元素标签如：li、p、div
多个元素标签，位置默认以1开始
最后一个用 li[last()] 不能用 li[-1]

comment['star'] = item.xpath('//header[@class="main-hd"]/span[2]/text()').extract()[0]

4.3 根据属性或者文本直接定位到当前标签

文本是 text()=’xxx’
其它属性是@xx=’xxx’

comment['title'] = item.xpath('//span[@property="v:summary"]/text()').extract()[0]

4.3 根据属性内容选取

想要获取某个标签下所有的文本（包括子标签下的文本），使用string
starts-with 匹配字符串前面相等
contains 匹配任何位置相等
当然其中的(@class,”content”)也可以根据需要改成(text(),”content”)或者其它属性(@src,”content”)

item.xpath('string(//p[@class="test"])')
item.xpath('//p[starts-with(@class,"content")]/text()')
item.xpath('//p[contains(@class,"content")]/text()')

猜你喜欢

转载自blog.csdn.net/olizxq/article/details/81838315

爬虫之XPath语法

Python爬虫之Xpath语法

网络爬虫之 xpath语法详解

python爬虫学习之XPath基本语法

爬虫之Xpath语法学习

初识爬虫之Xpath语法篇

python爬虫xpath的语法

爬虫基础 Xpath语法

Xpath语法-爬虫(一)

Scrapy爬虫：XPath语法

Python爬虫利器三之Xpath语法与lxml库的用法

Python爬虫：Xpath语法笔记

Python爬虫-2 xpath语法

爬虫之Xpath详解

爬虫之Beautifulsoup及xpath

爬虫之Xpath的使用

python爬虫之xpath

爬虫之 BeautifulSoup与Xpath

python.scrapy爬虫-xpath查询语法

网络爬虫基础-Xpath语法(一)

Python爬虫 XPath语法和lxml模块

Xpath爬虫语法学习

快速掌握Python爬虫XPath语法！

xpath详解 xpath语法及其应用爬虫神器

芝麻HTTP：Python爬虫利器三之Xpath语法与lxml库的用法

爬虫入门之————————————————第二节--使用xpath语法获取数据

python爬虫之数据解析（二）：XPath语法和lxml模块

Python之爬虫-- XML与XPath

爬虫之XPath高级篇

爬虫之XPath中级篇

今日推荐

富文本编辑器 Quill 2.0 重磅发布，特性、可靠性与开发者体验大幅提升

“开源信徒”周鸿祎开源360智脑大模型

周排行

Ubuntu 14.04 下Fuel6.0安装部署

香港一小巴侧翻致1死16伤警方：未见机件故障

pikachu--XSS盲打

阅读深入理解JVM虚拟机笔记一

java.sql.SQLException: ORA-00932: 数据类型不一致: 应为 -, 但却获得 CLOB

oracle delete all object under an user

[LeetCode]20 Valid Parentheses 有效的括号

树形DP求树的直径【模板】

Context propagation over HTTP in Go

【PAT】（B）1053 住房空置率 (20)*

每日归档

更多

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)

2024-04-14(0)

2024-04-13(119)

2024-04-12(38)

2024-04-11(14)

2024-04-10(68)

2024-04-09(5)