python--爬虫（XPath与xml类库） - 代码天地

python--爬虫（XPath与xml类库）

其他 2019-01-23 22:44:44 阅读次数: 0

获取页面内容除使用正则意外，还可以使用XPath，其原理是将html代码转换为xml格式，然后使用XPath查找html节点或元素。

选取节点

XPath使用路径表达式来选取XML文档中的节点或节点集。
常用的路径表达式见下表：

表达式	描述
nodename	选取此节点的所有子节点
/	从根节点选取
//	从匹配选择的当前节点选择文档中的节点，不考虑其是否为子级
.	选取当前节点
..	选取当前节点的父节点
@	选取属性

谓语

谓语用来查找某个特定的节点或者包含某个指定的值得节点，被嵌在方括号中。

路径表达式	释义
/one/two[1]	选取属于one子元素的第一个two元素
/one/two[last()]	选取属于one子元素的最后一个two元素
/one/two[last()-1]	选取属于one子元素的倒数第二个two元素
/one/two[position()<3]	选取最前面的两个属于one元素的子元素two元素
//one[@lang]	选取所有拥有名为lang的属性的one元素
//one[@lang='test']	选取所有拥有值为test的lang属性的one元素
/one/two[position>10]	选取one元素的所有two元素，且其中position属性的值大于10

猜你喜欢

转载自www.cnblogs.com/peilanluo/p/10311827.html

python--爬虫（XPath与xml类库）

Python爬虫(十二)_XPath与lxml类库

Python爬虫(十)_XPath与lxml类库

python爬虫7——XPath与lxml类库、xpath helper插件

Python之爬虫-- XML与XPath

[Python爬虫] 六、数据提取之XPath与lxml类库

Python爬虫：scrapy内置网页解析库parsel-通过css和xpath解析xml、html

爬虫xpath的使用 xml

Python爬虫之lxml库和XPath

Python--爬虫基础

Python爬虫5：Lxml库、Xpath语法与爬虫

爬虫解析库xpath

Python爬虫解析库之xpath解析库详解

python-->类与对象

python--类

Python--类的调用

python--类的继承

Python--类（讲解）

Python爬虫-xpath

python 爬虫 XPath

python爬虫xpath的语法

python爬虫 xpath使用

python爬虫---XPath介绍

python爬虫(二)-------------------Xpath

python爬虫教程：Xpath

python笔记(爬虫 xpath)

python爬虫xpath教程

Python爬虫--Xpath

【python爬虫】Xpath

Python爬虫--Xpath（二）

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

周排行

浏览器对同一域名进行请求的最大并发连接数

React Hook之自定义Hook

【转】MyBatis缓存机制

-Java-泛型

自动化测试常用脚本-发送邮件

LeetCode#859: Buddy Strings

java、Python处理字符串

第二篇の博客

Hadoop伪分布式环境安装

SQL Server进阶（十一）临时表、表变量

每日归档

更多

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)