1. 什么是xpath
XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。
2. xpath在爬虫中的使用
2.1 导入第三方模块:
import lxml.etree as etree
2.2 将爬取到的html内容转化为xpath可以解析的格式:
selector = etree.HTML(html)
2.3 xpath的常见表达式:
nodename 选取此节点的所有子节点
/ 从当前节点选取直接子节点
// 从当前节点选取子孙节点
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性
* 通配符
@* 选取所有属性
[@attrib] 选取具有给定属性的所有元素
[@attrib='value] 选取给定属性具有给定值的所有元素
[tag] 选取所有具有指定元素的直接子节点
text() 选取此节点的内容(列表)
[tag='text'] 选取所有具有指定元素并且文本内容是text的节点
2.4 选取出需要的信息:
例:courseDetails = selector.xpath('//div[@class="course-
card-container"]')