爬虫之Xpath语法学习

1.xpath:是一门在XML和HTML文档中查找信息的语言,可以用来在XML和HTML文档中对元素和属性进行遍历。

在爬虫中需要下载lxml库

2.语法

/ 代表从根节点选取;

// 代表选取所有的孩子

. 选取当前节点

.. 选取当前节点的父节点

元素[@id="值"] 选取“元素”的id等于“值”的元素内容

text() 选择当前标记下的文字内容

@属性名:获取当前元素的该属性

元素.xpath():在该元素下找相应的(比如在指定元素中找A标签而不是在所有的代码中找a标签)

扫描二维码关注公众号,回复: 9218339 查看本文章

举例:

bookstore 选取 bookstore 元素的所有子节点。
/bookstore

选取根元素 bookstore。

注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!

bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。
//book 选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang 选取名为 lang 的所有属性。

3.先输入网址,爬取内容,对内容进行解析

4.在Chrome上安装插件XPath Helper,可以输入 相关xpath语句进行输出内容,便于调试,减轻爬虫的测试,提高效率

安装差插件:

右上角(如图红圈)---点击更多工具----拓展程序,如图:

找到XPath Helper下载安装,有的版本直接勾选就行

发布了233 篇原创文章 · 获赞 20 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_42565135/article/details/104279341