ANSI格式编码、UTF-8格式编码和UTF-8无BOM格式编码三种不同编码趣味探讨

在上一篇文中，涉及到三种不同编码方式，ANSI格式编码、UTF-8格式编码以及UTF-8无BOM格式编码，这里我对三者进行
简要的探讨。
Windows：默认为 ANSI，记事本程序另存为处，可以设置其他编码格式；
Ubuntu：默认为 UTF-8

1）ANSI
ANSI 编码表示英文字符时用一个字节，表示中文用两个或四个字节 —— 这带来了存储空间的减少，但却带来的格式的
不统一和混乱。
ANSI是一种字符代码，为使计算机支持更多语言，通常使用 0x00~0x79 范围的 1 个字节来表示 1 个英文字符。
超出此范围的使用 0x80~0xFFFF来编码，即扩展的 ASCII 编码。为使计算机支持更多语言，通常使用 0x80~0xFFFF
范围的 2 个字节来表示 1 个字符。比如：汉字 ‘中’ 在中文操作系统中，使用 [0xD6,0xD0] 这两个字节存储。
不同的国家和地区制定了不同的标准，由此产生了 GB2312、GBK、GB18030、Big5、Shift_JIS 等各自的编码标准。
这些使用多个字节来代表一个字符的各种汉字延伸编码方式，称为 ANSI 编码。
在简体中文 Windows 操作系统中，ANSI 编码代表 GBK 编码；
在繁体中文 Windows 操作系统中，ANSI 编码代表 Big5；
在日文 Windows 操作系统中，ANSI 编码代表 Shift_JIS 编码;

2）UTF-8格式编码和UTF-8无BOM格式编码

BOM——Byte Order Mark，就是字节序标记

我发现Unicode、Unicode big endian和UTF-8编码的txt文件的开头会多出几个字节，分别是FF、FE（Unicode）,
FE、FF（Unicode big endian）,EF、BB、BF（UTF-8）。但这些标记是基于什么标准呢？

在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF，FFFE，在UCS中是不存在的字符，
所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样
如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。
因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

big endian和little endian
big endian和little endian是CPU处理多字节数的不同方式。例如“汉”字的Unicode编码是6C49。那么写到文件里时，
究竟是将6C写在前面，还是将49写在前面？如果将6C写在前面，就是big endian。还是将49写在前面，就是little endian。
“endian”这个词出自《格列佛游记》。小人国的内战就源于吃鸡蛋时是究竟从大头(Big-Endian)敲开还是从小头
(Little-Endian)敲开，由此曾发生过六次叛乱，其中一个皇帝送了命，另一个丢了王位。
我们一般将endian翻译成“字节序”，将big endian和little endian称作“大尾”和“小尾”。

UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码
是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

UTF-8编码的文件中，BOM占三个字节。如果用记事本把一个文本文件另存为UTF-8编码方式的话，用UE打开这个文件，
切换到十六进制编辑状态就可以看到开头的EF BB BF了。这是个标识UTF-8编码文件的好办法，软件通过BOM来识别这个文
件是否是UTF-8编码，很多软件还要求读入的文件必须带BOM。可是，还是有很多软件不能识别BOM。

ANSI格式编码、UTF-8格式编码和UTF-8无BOM格式编码三种不同编码趣味探讨

猜你喜欢