提取 xml 文件中的 CDATA 数据 - 代码天地

提取 xml 文件中的 CDATA 数据

编程语言 2018-12-26 17:35:03 阅读次数: 0

mywang88

2018-12-26

简介

XML 是常见的数据格式。

解析器往往会忽略 XML 文件中 <![CDATA[ 信息 ]]> 区段的内容，但有时我们是需要抓取这些内容的。

搜索了下这个问题，没找到较好的回答，自己解决。

本文的开发场景为：

编程语言：Python 3.7.0
使用了 Scrapy 爬虫框架的 Selector 类和它的 xpath 选择器（方法）
使用了 requests 库

方法

总结为一句话：

直接把整个文档中所有 <![CDATA[ 信息 ]]> 这东西 信息 两边的字符抹掉。

简单暴力，不需要导入其它任何依赖。

XML 文件示例：

<Item>
	<YEAR>
		<![CDATA[ 1999 ]]>
	</YEAR>
	<CITING>
		<![CDATA[ 0 ]]>
	</CITING>
</Item>

解析程序示例：

import requests
import scrapy

url = 'http://xml文件的地址'
# 获取 xml 文件
res = requests.get(url)
# 替换，就是这么暴力
text = res.text.replace('<![CDATA[', '').replace(']]>', '')
# 创建一个 Selector 类的实例
sel = scrapy.Selector(text=text)
# 使用 xpath 选择器
year_list = sel.xpath('//year/text()').extract()

问题解决。

猜你喜欢

转载自blog.csdn.net/mywang88/article/details/85260308

提取 xml 文件中的 CDATA 数据

xml中CDATA写法

XML中的CDATA

xml中CDATA作用

XML中CDATA的含义

XML中PCDATA与CDATA的区别

XML中的CDATA标签的作用

mybatis的xml文件中的CDATA的使用

xml CDATA

XML <![CDATA[]]>

xml文档中的<![CDATA[]]>和转义字符

xstream中为xml添加cdata标记

xml中的转义字符和<![CDATA[ ]]>

xml中的<![CDATA[]]>和转义字符

从XML文件和properties文件提取数据

XML CDATA的作用

XML CDATA 的详解

XML CDATA是什么？

XML的CDATA标记

Xml文档——CDATA区

XML CDATA概述

全球国家信息xml文件数据提取

XML CDATA(转载之笔记)

Python读取XML中数据提取为Dataframe

scrapt中的数据提取，采用js2xml库

mybatis 中的<![CDATA[ ]]>

mybatis 中的CDATA[ ]

mybatis 中![CDATA[...]]

mybatis 中的CDATA

mybatis中的转义CDATA

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)