网络爬虫——XPath表达式

其他 2020-02-07 14:51:31 阅读次数: 0

XPath表达式基础讲解

一、什么是XPath表达式

Xpath是XML路径语言，提供了在数据结构树种寻找节点的能力，所以Xpath被开发者们当做一种小型的查询语言。

匹配语句

/								逐层提取
text()							提取标签下面的文本
//标签名**						提取所有名为**的标签
//标签名[@属性=‘属性值’]			提取属性为**的标签
@属性名							代表取某个属性值

二、实例介绍

这是准备爬取的一个网页源代码

<html>
	<head>
	<title>程序员小哲</title>
	</head>
	<body>
		<p>chengxuyuan</p>
		<p>xiaozhe</p>
		<a href="www.baidu.com">登录</a>
		<a href="www.taobao.com">注册</a>
		<div class="xiaozhe" data-type="dr">
			<div id="guanzhu">欢迎关注公众号：骄傲的程序员</div>
		</div>
	</body>
</html>

实例1

XPatah表达式：/html/head/title/text()
匹配过程：先找html下的head下的title的标题
匹配后：输出我们的title标题，就是"程序员小哲"

实例2

XPatah表达式：//p/text()
匹配过程：查找代码中所有的<p>标签内容
匹配后：输出<p>标签内容，就是["chengxuyuan","xiaozhe"]

实例3

XPatah表达式：//a
匹配过程：查找代码中所有的<a>标签内容
匹配后：输出<a>标签内容，就是["登录","注册"]

实例4

XPatah表达式：//div[@id="guanzhu"]/text()
匹配过程：查找代码中所有的<div>并且id=“guanzhu”的标签内容
匹配后：输出标签内容，就是"欢迎关注公众号：骄傲的程序员"

实例5

XPatah表达式：//a/@href
匹配过程：查找代码中所有<a>标签的href属性
匹配后：输出标签属性内容，就是["www.baidu.com”,"www.taobao.com"]

XPath就到这里了，如果想了解正则表达式的同学，可以点击前面的正则表达式查看。
在这里插入图片描述

程序员小哲

发布了8 篇原创文章 · 获赞 53 · 访问量 8110

私信关注

猜你喜欢

转载自blog.csdn.net/xiaozhezhe0470/article/details/104180008

网络爬虫——XPath表达式

爬虫之xpath表达式

爬虫-xpath表达式符号用法

XPATH表达式

xpath 表达式

【Python学习之旅】---爬虫（xpath表达式，爬取网络段子和贴吧图片）

爬虫-正则表达式-lxml$xpath

Python scrapy框架爬虫之xPath表达式

网络爬虫的正则表达式

xpath路径表达式

【XML】XPath表达式

XPath 路径表达式

Xpath 常用表达式

爬虫XPath表达式提取信息实用插件：XPath helper下载安装使用

爬虫实战：页面解析详细指南（正则表达式、XPath、jsoup、Gson）

Python数据爬虫学习笔记（16）XPath表达式速成

2-Python爬虫-正则表达式/XML/XPath/CSS

Python开发之两种爬虫的方式正则表达式、XPath

web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础

爬虫中的正则表达式、xpath、bs4

python爬虫中的数据分析------xpath表达式的详解

xpath路径表达式-摘录

scrapy中Xpath表达式总结

selenium中Xpath路径表达式

xpath表达式——升级应用1

xpath表达式常用操作

Xpath路径表达式及代码展示

【分享】xpath的属性表达式

【分享】xpath的路径表达式

Python网络爬虫四大选择器（正则表达式、BS4、Xpath、CSS）总结

今日推荐

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

周排行

计算机组成与设计（七）—— 除法器

Integer Approximation(分治+枚举)

大话数据库索引

windows10系统JDK的配置及下载地址

mysql实现秒值转换中原六仔平台搭建

Codeforces Round #556 (Div. 1)

百练1064 网线主管

Codeforces 995F Cowmpany Cowmpensation

子集生成之增量构造法，位向量法，二进制法

ERROR: cmd.exe failed with args /c "/APK\gradle\rungradle.bat...

每日归档

更多

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)