[Java]字符串转Unicode编码额外2个字节的来源

转载：

https://blog.csdn.net/iteye_3946/article/details/81640056

https://www.zhihu.com/question/23374078/answer/69732605

为了在读取字节时能知道所采用的字节序，在传输时采用了一个名为 “ZERO WIDTH NON-BREAKING SPACE”（U+FEFF）的字符用于限定字节序， 开头两个字节为 FE FF 时为 Big-Endian，为 FF FE 时为 Little-Endian。 详见 RFC2781 3.2 节。

在 Java 中直接使用 Unicode 转码时会按照 UTF-16LE 的方式拆分，并加上 BOM。如果采用 UTF-16 拆分，在 Java 中默认采用带有 BOM 的 UTF-16BE 拆分。

Little-Endian：就是低位字节排放在内存的低地址端，高位字节排放在内存的高地址端。

Big-Endian：就是高位字节排放在内存的低地址端，低位字节排放在内存的高地址端。

为什么UTF-8中看不到BOM头？

Unicode符号范围        |   UTF-8编码方式

(十六进制)             | （二进制）       #Unicode部分为16进制编码， UTF-8编码为2进制

—————————————————————–————————————–
0000-0000 007F   | 0xxxxxxx      #UTF-8规定，若1字符=1字节，首位须为‘0’
0080-0000 07FF   | 110xxxxx 10xxxxxx  #UTF-8规定，若1字符=2字节，高位字节前3位为‘110’，低位前2位为‘10’
0800-0000 FFFF   | 1110xxxx 10xxxxxx 10xxxxxx  #UTF-8规定，若1字符=3字节，高位字节前3位为‘110’，后面低位前2位一律为‘10’。（占4,5字节字符规则以此类推）

UTF-8 是采用 1～4 个字节来表示 Unicode 字符的，每个 Unicode 的 UTF-8 编码的第一个字节是有一定范围的，如果读取到某个字节的最高位为 0 那么采用一个字节表示，如果最高位是两个“1”就采用两个字节表示，最高位是三个“1”采用三个字节表示，以此类推。多字节表示时，第二个和后面的字节的最高位只能是“10”，也就是说 UTF-8 编码时字符的第一个字节的最高位不可能是“10”。因此，UTF-8 只能采用 Big-Endian 的 BOM 方式。BOM 头 U+FEFF，UTF-8 编码为 EF BB BF 就稳含掉了。

测试：

System.out.println("Unicode");
System.out.println("中"+Arrays.toString("中".getBytes("Unicode")));
System.out.println("文"+Arrays.toString("文".getBytes("Unicode")));
System.out.println("中文"+Arrays.toString("中文".getBytes("Unicode")));

System.out.println("UTF-8");
System.out.println("中"+Arrays.toString("中".getBytes("UTF-8")));

System.out.println("GBK");
System.out.println("中"+Arrays.toString("中".getBytes("GBK")));

输出：

在输出结果中可以看到，将字符串转换成Unicode编码的字节数组时，数组存在额外字节-2，-1。字节-2的补码为0xFE，字节-1的补码为0xFF，连起来FEFF表示Big-Endian。

[Java]字符串转Unicode编码额外2个字节的来源

猜你喜欢