xPath解析HTML学习速成教程 - 代码天地

xPath解析HTML学习速成教程

其他 2020-02-22 10:31:50 阅读次数: 0

XPath 简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。

在您继续学习之前，应该对下面的知识有基本的了解：

HTML / XHTML
XML / XML 命名空间

格式

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
…	选取当前节点的父节点。
@	选取属性。

案例

<!DOCTYPE html>
<html>

<head>
    <meta charset="utf-8" />
    <title class='title'>网页标题</title>

</head>

<body>
    <h1 id='my_h1'>标题1</h1>
    <p class='my_p'>段落1</p>
    <p class='my_p'>段落2</p>
    <span>25.00</span>
    <span>255.00</span>
    <div>
        <span>25.00</span>
        <p>qwer</p>
    </div>
    <div>
        <span>225.00</span>
        <p>qwer</p>
    </div>

</body>

</html>

精确选取节点

选取所有节点
/html
在这里插入图片描述

选取所有body信息
/html/body
//body
在这里插入图片描述

选取body下的所有p元素

在这里插入图片描述

选取名为 class的所有属性

在这里插入图片描述

选取属于 body子元素的第一个 p 元素

在这里插入图片描述
选取属于 body子元素的最后一个 p元素

在这里插入图片描述

选取属于 body子元素的倒数第二个 p元素

在这里插入图片描述

选取第二个到最后的p元素
在这里插入图片描述

选取所有 title 元素，且这些元素拥有值为 title 的 class属性

在这里插入图片描述

选取 html 元素的所有 body元素，且其中的 span元素的值须<26 在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

选取未知节点

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

路径表达式	结果
/html/*	选取 html 元素的所有子元素。
//*	选取文档中的所有元素。
//p[@*]	选取所有带有属性的 p元素。

xPath 运算符

//body/p|//body/span
选取 body元素的所有 p和 span元素
在这里插入图片描述
//p[2] | //span[1]
选取文档中的第二个 p和第一个 span元素。

/html/body/p | //span
选取属于 html元素的 body元素的所有 p元素，以及文档中所有的 span元素。
在这里插入图片描述

所有脚本都在：https://github.com/SaltNego/Web_Crawler_Notes

偷一个月亮

发布了61 篇原创文章 · 获赞 22 · 访问量 4238

私信关注

猜你喜欢

转载自blog.csdn.net/yiqiushi4748/article/details/104025394

xPath解析HTML学习速成教程

大牛的《深度学习》笔记，Deep Learning速成教程

PyQt5速成教程

极*Java速成教程 - (1)

极*Java速成教程 - (2)

极*Java速成教程 - (8)

python2.7.8速成教程

PyQT5速成教程-1 简介与环境搭建

正则表达式速成教程

PyQT5速成教程-3 布局管理

魔兽争霸RPG地图开发速成教程

Automake十分钟速成教程

xpath 解析html代码

xpath解析html

python xpath解析html

xpath解析HTML文件

-数据库速成教程-（一）基础知识与基本概念

简单2048速成教程（python100行基本实现）

Python 爬虫速成教程，还有35个实战项目送给你

PyQT5速成教程-2 Qt Designer介绍与入门

PyQT5速成教程-4 Qt Designer实战[上]

python小白学习记录运用lxml的xpath解析html文件

HTML文档解析之Xpath（附 xpath helper工具）

XPath解析网页学习笔记

py使用xpath解析html 库

Python使用XPath解析HTML文档

解析HTML—— BeautifulSoup和xPath的基本使用

5.HTML内容解析-XPath

Python使用XPath解析HTML的方法详解

【B站免费教程】2W 收藏！火爆 B 站的计算机科学速成教程发布，全中文版

今日推荐

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

周排行

Family Tree 题解

BZOJ 1093 最大半连通子图 SCC + DP

幂等处理

Spring----学习（2）----XML 配置Bean 自动装配

SQL Server 远程更新目标表数据

HIbernate3.6 环境搭建

特殊符号正则表达式

【Linux】第一章进程的理解

843. n-皇后问题（dfs+输出各种情况）

空间数据库2

每日归档

更多

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)