xml 标准字符过滤 - 代码天地

xml 标准字符过滤

其他 2019-01-18 07:11:27 阅读次数: 0

今天在代码里面看见一串很奇怪的判断语句

if (c < 0x9 || c > 0x9 && c < 0xA || c > 0xA && c < 0xD || c > 0xD && c
< 0x20 || c > 0xD7FF && c < 0xE000 || c > 0xFFFD)

于是用0xE000和0xFFFD 搜索了一下，发现原来xml还有这些限制。

根据xml spec

http://www.w3.org/TR/xml/#charsets

xml合法的字符范围是

[2] Char ::= #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

然后有网上各种人遇到的问题

“因为字节数组中存在 Unicode: 0x0,而这个字节在Xml中被认为是非法字符。对于一些经过编码或加、解密的字符串中，很容易会出现这个 0x0，特别是在加、解密中，经常会涉及到字符填充，而填充物通常是 0x0，对于0x00-0x20 都会引起一定的问题，又因为这些字符不可见，因此用通常的编辑器进行编辑的时候找不到问题所在。

xml中需要过滤的字符分为两类：

一类是不允许出现在xml中的字符，这些字符不在xml的定义范围之内；

另一类是xml自身要使用的字符，如果内容中有这些字符则需被替换成别的字符。

第一类字符：

　　对于第一类字符，我们可以通过W3C的XML文档来查看都有哪些字符不被允许出现在xml文档中。

　　XML允许的字符范围是“#x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]”。因此我们可以把这个范围之外的字符过滤掉。

第二类字符：

　　对于第二类字符一共有5个，如下：

　　字符 HTML字符字符编码

　　和(and) & & &

　　单引号 ’ ' '

　　双引号 ” " "

　　大于号 > > >

　　小于号 < < <

“

还有

解决openfire中发送某些特殊字符会断开xmpp连接的问题

以及emoji问题 http://blog.csdn.net/u014542833/article/details/22954893

这只能用一个非严格标准的xml解析器，或者用cdata包超出范围的字符了？

猜你喜欢

转载自blog.csdn.net/problc/article/details/41247055

xml 标准字符过滤

过滤XML中的非法字符

c# XML无效字符过滤

过滤XML文件中的无效字符

web.xml字符编码过滤器

web.xml中配置字符编码过滤器

字符过滤器+在web.xml中的配置

DOCTYPE 声明 [XML 标准]

将xml转为array 输出xml字符

XML 过滤器配置

【XML转义字符】

xml转义字符

XML的特殊字符

XML特殊字符处理

XML中的特殊字符

XML处理转义字符

xml 特殊字符

XML非法字符的处理

xml 转义字符

android XML转义字符

xml中的转义字符

xml转义字符处理

unity标准AndroidManifest.xml

Python 标准库之XML

标准maven的pom.xml

web.xml文件中配置字符编码过滤器，CharacterEncodingFilter爆红

XML中的转转义字符

关于XML对特殊字符的编码

XML 解析 & 特殊字符报错

Mybatis xml 转义特殊字符

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)