爬虫-网页内容匹配之xpath - 代码天地

爬虫-网页内容匹配之xpath

其他 2018-10-31 02:08:04 阅读次数: 0

想要在网页中获取你想要的数据，有三种比较常用的方法：正则表达式，xpath，beautfulsoup。而其中，对于一些简单网页的数据提取，xpath的使用比正则表达式好用多了。

xpath常用语法：

 /  : 表示从根节点开始选取
 // : 从整个文档中查找某个节点
 @ : 选取某个节点的属性
 |  : 满足左右其中一个条件（或）
 [] : 标签中的属性和值
 contains():匹配一个属性值中包含某些字符串的节点

例子：

   要获取div标签下的span标签的文本信息：//div/span
   要获取class为’qwer‘的div下的span信息：//div[@class='qwer']/span
   如果只要他有class属性，不在乎值的话：//div[@class]/span
   要获取img标签火热的src的值：//img/@src
   要获取div标签的class属性包含’df‘这个字串的信息：//div[contains(@class,'df')]
   要获取div下的span或h1标签：//div/span|//div/h1

使用：


from lxml import etree
parseHtml = etree.HTML(html)
name_obj = parseHtml.xpath('//div[@class="post-wrapper col-md-8"]/header/h1/a')
for i in name_obj:
    print(i.text)
addr_list = parseHtml.xpath('//div[@class="post-wrapper col-md-8"]/header/h1/a/@href')
for i in addr_list:
    print(i)

注意:name_obj列表里的是对象，text属性才是要的内容，addr_list列表里的是字符串

有一款谷歌浏览器插件xpath-helper（百度搜索即可）可以帮助我们更快的验证我们的代码是否能匹配想要的内容。（ctrl+shift+X 打开/关闭插件）大写的X

温馨提示：如果你在使用xpath插件时有内容，而程序没有匹配到内容，可能是标签没有写完全，比如//div/span,实际应该是//div/span/span。这种情况xpath插件能显示，而Python匹配不出来。最好多写几层标签。

猜你喜欢

转载自blog.csdn.net/Qwertyuiop2016/article/details/82887563

爬虫-网页内容匹配之xpath

python爬虫 selector xpath提取网页内容

Python 爬虫网页内容提取工具xpath

网页爬虫XPath 定位

xpath解析网页，xpath获取网页的内容

Go开发之利用 Xpath 读取网页中想要的内容

网络爬虫之网页数据解析（XPath）

爬虫基础（6）网页解析之XPath库

爬虫--xpath匹配，requests库

python爬虫之xpath和lxml解析内容

简单静态网页爬虫-xpath

网页爬虫学习之获取网页中标签内容

爬虫之Xpath详解

爬虫之XPath语法

爬虫之Beautifulsoup及xpath

爬虫之Xpath的使用

爬虫之 BeautifulSoup与Xpath

python爬虫之xpath

Python爬虫实战011：python xpath匹配text中包含指定内容的元素的同级的前面或后面的元素的内容

python3爬虫之lxml的xpath二次匹配遇到的问题

xpath helper插件：网页爬虫分析工具

爬虫网页分析——XPath与lxml的使用

python 爬虫（xpath解析网页，下载照片）

爬虫——网页解析利器--re & xpath

python网络爬虫之解析网页的XPath(爬取Path职位信息)[三]

python网络爬虫之解析网页的XPath(爬取java职位信息)[三]

用lxml的xpath演示爬虫提取笑话集网页其中的标题，url，浏览数，日期，笑话内容

Python之爬虫-- XML与XPath

爬虫之XPath中级篇

爬虫之XPath基础篇

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

周排行

购置笔记本常识

从源码看Spring Security之采坑笔记（Spring Boot篇）

大数据学习——高可用配置案例

如何避免选择不专业的建站公司?

Euclid's Game HDU - 1525（博弈）

面试笔记（六）---Js实现eventHandler

Windows 实例搭建的 FTP 在外网无法连接和访问

设计模式 : 桥接模式

USB 设备驱动开发之几个重要结构体分析

14-p14_sqrt求平方根

每日归档

更多

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)