初识爬虫之Xpath语法篇

正则表达式虽然繁琐但是理解起来比较简单，它的缺点就是我们匹配数据的时候，处理很多的文本或者其他时刻，不小心写错了或者忘记了某一个字符，这个时候就很麻烦。作为爬虫我个人建议还是用Xpath这个解析，来匹配数据，比较好，虽然前期可能比较生疏，但是到了后面就会越用越顺手。

1. XPath 概览

XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过100 个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，者阿以用 XPath 来选择。

2. XPath 常用规则

在这里插入图片描述
对于/和//这个东西我是这样理解的，/就是只从当前节点开始，并且选取直接子节点，比如/book，他是需要一一链接的。但是//不需要比如我用它选取子孙节点，也就是说不管他的位置在哪里，只要我可以看见就选取。
在这里插入图片描述
前面两张图片是转载菜鸟教程里面的，它讲的比较全面，但是不好理解，下面我们就自己来梳理一下。

准备工作
首先导人 lxml 库的 etree 模块，然后声明了一段 HTML 文本，调用 HTML 类进行初始化，这样就成功构造了一个 XPath 解析对象。

我们一般会用//开头的 XPath 规则来选取所有符合要求的节点。比如匹配li这个节点所有，就用//li来实现。

子节点

假如现在想选择 li 节点的所有直接 a 子节点，"//li/a"
这里通过追加／a 即选择了所有 li 节点的所有直接 a 子节点。因为// li 用于选中所有 li 节点，／a用于选中 li 节点的所有直接子节点 a ，二者组合在一起即获取所有 li 节点的所有直接 a 子节点。

//ulr//a:获取url下面的所有a节点，包括所有的url节点。

这个我们在进行一些大数据爬虫的时候可以应用，比如一个节点下面有很多这样的节点，一层一层的我们难道需要一层一层的剥开吗，显然不用。我们利用所有的节点在加上//来获取这个节点下面的东西，不管他是第多少层，都会被我们查找到，这样就减轻了繁琐。知道一个父节点，然后要获取该节点下面的若干的子节点，我们只需要知道就可以了。

父节点

我们知道通过连续的／或／／可以查找子节点或子孙节点，那么假如我们知道了子节点，怎样来查找父节点呢？这可以用．．来实现。

在这里插入图片描述
属性匹配

在选取的时候，我们还可以用＠符号进行属性过滤。
在这里插入图片描述这里利用@class=“item-0”来限制了这个属性为它

文本获取

在这里插入图片描述

所以说，如果要想获取子孙节点内部的所有文本，可以直接用／／加 text （）的方式，这样可以保证获取到最全面的文本信息，但是可能会夹杂一些换行符等特殊字符。如果想获取某些特定子孙节点下的所有文本，可以先选取到特定的子孙节点，然后再调用 text （）方法获取其内部文本，这样可以保证获取的结果是整洁的。

属性获取

要注意的是属性获取和属性匹配不一样，前者是获取到某一个特定属性值，而后面的就是通过中括号加属性名和值来限定某个属性，就像前面介绍的。

获取li节点下所有a节点的href属性值，它是以列表的形式返回的。

属性多值匹配
有时候，某些节点的某个属性可能有多个值
在这里插入图片描述这里 HTML 文本中 li 节点的 class 属性有两个值 li 和 li-first ，此时如果还想用之前的属性匹配获取，就无法匹配了，此时的运行结果为一个空的列表。

这时就需要用 contains （）函数了
在这里插入图片描述通过 contains （）方法，第一个参数传人属性名称，第二个参数传人属性值，只要此属性包含所传人的属性值，就可以完成匹配了。

多属性匹配

我们可能还遇到一种情况，那就是根据多个属性确定一个节点，这时就需要同时匹配多个属性。此时可以使用运算符 and 来连接

在这里插入图片描述这里的 li 节点又增加了一个属性 name 。要确定这个节点，需要同时根据 clas s 和 name 属性来选择，一个条件是 class 属性里面包含 li 字符串，另一个条件是 name 属性为 item 字符串，二者需要同时满足，需要用 and 操作符相连，相连之后置于中括号内进行条件筛选。

按序选择

有时候，我们在选择的时候某些属性可能同时匹配了多个节点，但是只想要其中的某个节点，如第二个节点或者最后一个节点，这时可以利用中括号传入索引的方法获取特定次序的节点
在这里插入图片描述第一次选择时，我们选取了第一个 li 节点，中括号中传入数字 l 即可。注意，这里和代码中不同，序号是以 1 开头的，不是以 0 开头。