不使用scrapy框架进行爬虫的xpath常用方法
1.简单介绍
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。
2. XML文档源码举例
<xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
2.1 实例
在下面的表格中,列出了一些路径表达式以及表达式的结果:
2.2 实例
在下面的表格中,列出了带有谓语的一些路径表达式,以及表达式的结果:
3.重点总结
xpath()返回的永远是一个列表:
1.属性匹配:通过属性查找到的节点都放在一个列表里:为<Element div at 0x16e88e2b9c8>对象
--[<Element div at 0x16e88e2b9c8>, <Element div at 0x16e88e2b8c8> ]
2.获取标签的文本内容:/text() 例如:.xpath(//book/title[@lang="eng"]/text())
--返回值为列表:["Harry Potter","Learning XML"]
3.获取某个标签的属性: 例如:href = html.xpath("//a/@href")
--['https://zhidao.baidu.com/usercenter?uid=330e4069236f25705e79db50&teamType=1']
如果你和我有共同爱好,我们可以加个好友一起交流!