爬虫之Xpath的使用

什么是Xpath

Xpath是一门在HTML、XML文档中查找信息的语言,可以用来在HTML/XML文档中对元素和属性进行遍历

XML:可扩展标记语言,被设计为传输和存储数据,其焦点是数据内容,每个XML的标签叫做节点,

Xpath节点选择工具:

Chrome插件XPath  Helper

开源的XPath表达式编辑工具XMLQuire(XML格式文件可用)

Firefox插件XPathChecker

Xpath语法

/表示根节点,

/html/head/title/text()

学习重点:

1、a/text()   a的文本内容

a//text()  a下的所有文本内容

//a[text()='下一页']选择文本为下一页的a标签

2、/html/head/link/@href   获取属性

//ul[@id='detail-list']/li/p/text()

./当前节点     ../上一级节点

3.//表示从html的任意位置开始选择

//li  整个文档中的li标签

 

猜你喜欢

转载自www.cnblogs.com/weidaijie/p/10447893.html