XML乱码问题和encoding的理解 - 代码天地

XML乱码问题和encoding的理解

其他 2021-11-19 08:49:54 阅读次数: 0

文件编码

文件编码也称为字符编码，用于指定在处理文本时如何表示字符。一种编码可能优于另一种编码主要取决于它能处理或不能处理哪些语言字符，不过通常首选的是 Unicode。读取或写入文件时，未正确匹配文件编码的情况可能会导致发生异常或产生不正确的结果。
编码类型

处理文件时，Unicode 是首选编码。Unicode 是全球范围的字符编码标准，该标准使用 16 位代码值来表示现代计算中使用的所有字符，包括印刷中使用的技术符号和特殊字符。

encoding属性和文件格式的关系

我以前理解的是xml里的encoding定义的编码必须与文件格式相匹配。即<? xml encoding="utf-8" ?>，那么，文件格式必须是一个utf-8文件。encoding的值必须和文件格式（即BOM，BOM就是 byte order mark的缩写）相匹配，不然在解析XML时，可能会出现乱码，但是实际不是这样的。

W3C定义了三条XML解析器如何正确读取XML文件的编码的规则：
1.如果文挡有BOM(字节顺序标记，一般来说，如果保存为unicode格式，则包含BOM，ANSI则无)，就定义了文件编码（另存为文件时，选择的编码格式）。
2.如果没有BOM，就查看XML encoding声明的编码属性。
3.如果上述两个都没有，就假定XML文挡采用UTF-8编码

有了这三条规则，那这个规则就清楚多了。
首先，XML解析器根据文件的BOM(文件存储格式)来解析文件；如果没找到BOM，由用XML里的encoding属性指定的编码；如果xml里encoding没指定的话，就默认用utf-8来解析文档。然后又可以推出，BOM和ENCODING都有的话，则以BOM指定的为准。

结论

结论是：编码属性应当被指定为文档被保存时所使用的编码。
我最好的避免错误的建议是：
使用支持编码的编辑器,如Editplus
确定编辑器使用的编码(一般是可以查看和修改的)
在您的 XML 文档中使用相同的编码属性,即encoding的值

猜你喜欢

转载自blog.csdn.net/lgxzzz/article/details/121344761

XML乱码问题和encoding的理解

Python爬虫乱码问题之encoding和apparent_encoding的区别

java 乱码问题-Dfile.encoding=UTF-8

乱码问题理解

Accept-Encoding gzip 乱码和Okhttp的解决方法

XML乱码问题解析

理解Tomcat中文乱码问题

eclipse的XML、properties等文件乱码问题

xml代码解决eclipse乱码问题

java读写properties文件和xml文件，解决中文乱码问题

python3爬虫中文乱码之请求头‘Accept-Encoding’：br 的问题

php file_get_contents 中文乱码的问题 Content-Encoding: gzip

PHP Curl Accept-Encoding: gzip乱码问题解决

file.encoding引起的中文乱码问题解决办法

编码和乱码问题

使用lxml的etree读取xml时的问题：ValueError: Unicode strings with encoding declaration are not supported.

用lxml的etree.froms读取xml时的问题：ValueError: Unicode strings with encoding declaration are not supported.

Java Dom4j解析xml常见问题，Java Dom4j设置Xml encoding编码

maven启动中文乱码问题，不再支持源选项 5。请使用 6 或更高版本。File encoding has not been set, using platform encoding UTF-8,

动态代理解决全站乱码问题

对Transformer中Positional Encoding的理解

Character Encoding HDU - 6397（容斥原理解决方程解个数经典问题详解）

circe Encoding和Decoding

SublimeText3中使用encoding="utf_8_sig" 参数解决DadaFrame存取csv中中文乱码问题

Request和Respond乱码问题

SQLException异常和乱码问题

go标准库的学习-encoding/xml

Package javax.xml.rpc.encoding

jdom解决中文乱码问题 JAVA生成xml文件

java jdk自带xml编程，使用transform中文乱码问题

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)