python 爬虫 XPath - 代码天地

python 爬虫 XPath

其他 2018-08-27 09:39:13 阅读次数: 0

XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言，可用来在 XML 文档中对元素和属性进行遍历。

它最初是用来搜寻 XML 文档的，但是它同样适用于 HTML 文档的搜索。

原文：痴海

XPath 的选择功能十分强大，它提供了非常简洁明了的路径选择表达式。另外，它还提供了超过 100 个内建函数，用于字符串、数值、时间的匹配以及节点、序列的处理等。几乎所有我们想要定位的节点，都可以用 XPath 来选择。

from lxml import etree
text = '''
<div>
<ul>
<li class="item-0"><a href="link1.html">first item</a></li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-inactive"><a href="link3.html">third item</a></li>
<li class="item-1"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a>
</ul>
</div>
'''

html = etree.HTML(text)
result = etree.tostring(html)
print(result.decode('utf-8'))

这里首先导入 lxml 库的 etree 模块，然后声明了一段 HTML 文本，调用 HTML 类进行初始化，这样就成功构造了 XPath 解析对象。这里需要注意的是，HTML 文本中的最后一个 li 节点是没有闭合的，但是 etree 模块可以自动修正 HTML 文本。

这里我们调用 tosting() 方法即可输出修正后的 HTML 代码，但是结果是 bytes 类型。这里利用 decode() 方法将其转成 str 类型，结果如下:

60行代码实现多线程PDF转Word

扫描二维码关注公众号，回复： 2895670 查看本文章

猜你喜欢

转载自blog.csdn.net/sinat_23880167/article/details/81074761

Python爬虫-xpath

python 爬虫 XPath

python爬虫xpath的语法

python爬虫 xpath使用

python爬虫---XPath介绍

python爬虫(二)-------------------Xpath

python爬虫教程：Xpath

python爬虫xpath教程

python笔记(爬虫 xpath)

Python爬虫--Xpath（二）

Python爬虫--Xpath

【python爬虫】Xpath

python爬虫基础 - XPATH

python爬虫之xpath

Python爬虫：xpath解析

python爬虫-xpath解析

Python爬虫：Xpath语法笔记

python爬虫（三）xpath与lxml

（十八）Python爬虫：XPath的使用

Python之爬虫-- XML与XPath

Python爬虫开发——XPath的使用

Python爬虫之Xpath语法

数据之路 - Python爬虫 - Xpath

Python案例：使用XPath的爬虫

初探python爬虫（四）——xpath

Python爬虫神器Xpath的使用

Python爬虫——XPath的使用（B）

Python爬虫——xpath().[0]的用法

Python爬虫-2 xpath语法

python爬虫之xpath解析

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)