XPath部分总结 - 代码天地

XPath部分总结

其他 2018-09-01 14:11:17 阅读次数: 0

关键词：网络采集数据,网页特定内容提取
在网络爬虫中,对爬取到的数据进行筛选和提取的方式主要有两种：正则表达式和XPath,后者常用于scrapy框架中。
定义：
XPath是一种XML路径语言,通过该语言可以在XML文档中迅速地查询到相应的信息,XPath表达式通常叫做XPath selector。

1."/" 表示从顶端开始寻找某个标签(多层标签的查找)

以提取title标题为例:

例如:/html ,意思是从顶端开始查找html标签,此时表示<html ,,class=ddaddd>,html标签及其里面的内容

/html/head：提取HTML下的标签下的head标签下的所有内容/html/head/title:可得到对应标题中的内容

2.使用text()提取标签里面的文本内容

/html/head/title/text():可提取得到标题

案例：

3.”=”之前的属于标签属性,如果要提前标签里面的属性信息用”@”提取
4.“//”介绍：寻找所有的标签
herf 属于class类标签下的
//li (寻找所有的li标签)
//li(寻找所有的li标签)/[@(定位到某个属性)]
//li[@class=”,,,,,”]/a/@herf
即可得到某个herf下面的” ”的内容

猜你喜欢

转载自blog.csdn.net/Analyst128/article/details/82109280

XPath部分总结

【Xpath】 xpath语法总结

XPath总结

Xpath 总结

XPath 详解,总结 XPath 语法

xpath-总结

xpath用法及实践总结

xPath 用法总结整理

python xpath学习总结

XPath使用总结

XPath 详解及总结

XPath --- 用法总结整理

Xpath基础总结

XPath 详解,总结

Xpath用法总结

xpath语法总结

Xpath常用总结

XPath定位总结

爬虫（十一）—— XPath总结

XPATH语法总结与示例

【爬虫解析1】：XPath总结

XPATH详细介绍和总结

元素定位方式Xpath总结

Selecnium之Xpath实例总结

python中的Xpath方法总结

python中的Xpath应用总结

XPATH

xpath的|

XPath常用定位节点元素语句总结

元素定位-XPATH定位方法总结

今日推荐

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

周排行

返回指定时间格式

fopen函数中的mode参数

Java 单例模式探讨

Flex remoteobject工作原理探讨

寻找mplayer的便捷安装方法

30天了解30种技术系列---(26)MySQL自动化运维工具Inception

关于Jboss/Tomcat/Jetty的JNDI定义123

程序减肥，strip，eu-strip 及其符号表

AsyncTask、View.post(Runnable)、ViewTreeObserver三种方式总结frame animation自动启动

Json和Bean的互相转换

每日归档

更多

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)