爬虫(xpath)

1. 什么是xpath

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

2. xpath在爬虫中的使用

2.1 导入第三方模块:
	import lxml.etree as etree
2.2 将爬取到的html内容转化为xpath可以解析的格式:
	selector = etree.HTML(html)
2.3 xpath的常见表达式:
	nodename			选取此节点的所有子节点
	/					从当前节点选取直接子节点
	//					从当前节点选取子孙节点
	.					选取当前节点
	..					选取当前节点的父节点
	@					选取属性
	*					通配符
	@*					选取所有属性
	[@attrib]			选取具有给定属性的所有元素
	[@attrib='value]	选取给定属性具有给定值的所有元素
	[tag]				选取所有具有指定元素的直接子节点
	text()			选取此节点的内容(列表)
	[tag='text']		选取所有具有指定元素并且文本内容是text的节点
2.4 选取出需要的信息:
	例:courseDetails = selector.xpath('//div[@class="course-
	card-container"]')

猜你喜欢

转载自blog.csdn.net/qq_43281189/article/details/87798264