Python爬虫:XPath快速掌握并应用

快速学习并应用一门技术,是一种能力

什么是XPath?

XPath是一门在HTML/XML文档中查找信息的语言,常用于在网络爬虫爬下的网页HTML源代码中,查找定位特定标签里的数据。

XPath路径表达式

在网络爬虫中使用XPath,只需要掌握 XPath路径表达式即可。XPath 使用路径表达式来选取 HTML/XML文档中的节点或者节点集。这些路径表达式和我们在常规的电脑文件系统中看到的表达式非常相似。

最常用的路径表达式规则:
表达式 描述
nodename 选取此节点的所有子节点
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
选取当前节点的父节点。
@ 选取属性。

Xpath应用实例在这里插入图片描述

发布了13 篇原创文章 · 获赞 0 · 访问量 256

猜你喜欢

转载自blog.csdn.net/qq_41802192/article/details/105487687