python爬虫之xpath的使用方法

XPath的使用方法:
四种标签的使用方法
1) // 双斜杠 定位根节点,会对全文进行扫描,在文档中选取所有符合条件的内容,以列表的形式返回。
2) / 单斜杠 寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作
3) /text() 获取当前路径下的文本内容
4) /@xxxx 提取当前路径下标签的属性值
5) | 可选符 使用|可选取若干个路径 如//p | //div 即在当前路径下选取所有符合条件的p标签和div标签。
6) . 点 用来选取当前节点
7) .. 双点 选取当前节点的父节点
8)获取真正内容 :response.selector.xpath(‘//title/text()’).extract_first()

In [2]: response.selector.xpath('//title/text()')
Out[2]: [<Selector xpath='//title/text()' data='Example website'>]
举例说明:

In [3]: response.selector.xpath('//title/text()').extract_first()
Out[3]: 'Example website'

猜你喜欢

转载自blog.csdn.net/qq_40605167/article/details/81368038