爬虫--xpath详解

爬虫应用:

基于python的requests+lxml,lxml中有xpath语法,功能强大,定位准确

Xpath用法:

在 XPath 中，有七种类型的节点：元素、属性、文本、命名空间、处理指令、注释以及文档（根）节点。XML 文档是被作为节点树来对待的;

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取,一层一层筛选
//	文档任何位置都能找到文档中的节点,递归筛选
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

谓语:

路径表达式	结果
//div/a[1]	选取属于div子元素下的a标签的第一个
//div/a[last()]	选取属于div下子元素的a标签的最后一个
//div/a[last()-1]	选取属于div下子元素的a标签的倒数第二个
//div/a[position()<3]	选取最前面两个属于div元素的子元素的a标签
//div[@lang='eng']	属性选取,一般有class,id,自定义属性
//div/a[price>35.00]	选取div下的a标签的price大于35

选取未知节点:

* 匹配任何元素节点

@*匹配任何属性节点

node()匹配任何类型的节点

路径表达式	结果
/bookstore/*	选取 bookstore 元素的所有子元素。
//*	选取文档中的所有元素。
//title[@*]	选取所有带有属性的 title 元素。

选取若干路径
通过在路径表达式中使用“|”运算符，您可以选取若干个路径。

//book/title | //book/price 选取 book 元素的所有 title 和 price 元素。
//title | //price 选取文档中的所有 title 和 price 元素。
/bookstore/book/title | //price 选取属于 bookstore 元素的 book 元素的所有 title 元素，以及文档中所有的 price 元素。
三、轴
轴可定义相对于当前节点的节点集;

轴名称	结果
ancestor	选取当前节点的所有先辈（父、祖父等）。
ancestor-or-self	选取当前节点的所有先辈（父、祖父等）以及当前节点本身。

attribute	选取当前节点的所有属性
child	选取当前节点的所有子元素
descendant	选取当前节点的所有后代元素（子、孙等）

descendant-or-self	选取当前节点的所有后代元素（子、孙等）以及当前节点本身
following	选取文档中当前节点的结束标签之后的所有节点
namespace	选取当前节点的所有命名空间节点

parent	选取当前节点的父节点
preceding	选取文档中当前节点的开始标签之前的所有节点
preceding-sibling	选取当前节点之前的所有同级节点

self

选取当前节点

例子：

例子	结果
child::book	选取所有属于当前节点的子元素的 book 节点
attribute::lang	选取当前节点的 lang 属性
child::*	选取当前节点的所有子元素
attribute::*	选取当前节点的所有属性
child::text()	选取当前节点的所有文本子节点
child::node()	选取当前节点的所有子节点
descendant::book	选取当前节点的所有 book 后代
ancestor::book	选择当前节点的所有 book 先辈
ancestor-or-self::book	选取当前节点的所有 book 先辈以及当前节点（如果此节点是 book 节点）
child::*/child::price	选取当前节点的所有 price 孙节点

四、一些函数
1. starts-with函数
获取以xxx开头的元素
例子：xpath(‘//div[stars-with(@class,”test”)]’)

2 contains函数
获取包含xxx的元素
例子：xpath(‘//div[contains(@id,”test”)]’)

3 and
与的关系
例子：xpath(‘//div[contains(@id,”test”) and contains(@id,”title”)]’)

4 text()函数
例子1：xpath(‘//div[contains(text(),”test”)]’)
例子2：xpath(‘//div[@id=”“test]/text()’)

千年乙方

发布了23 篇原创文章 · 获赞 14 · 访问量 9万+

私信关注

猜你喜欢