[Java]字符串转Unicode编码额外2个字节的来源

转载:

https://blog.csdn.net/iteye_3946/article/details/81640056

https://www.zhihu.com/question/23374078/answer/69732605

为了在读取字节时能知道所采用的字节序,在传输时采用了一个名为 “ZERO WIDTH NON-BREAKING SPACE”(U+FEFF)的字符用于限定字节序, 开头两个字节为 FE FF 时为 Big-Endian,为 FF FE 时为 Little-Endian。  详见 RFC2781 3.2 节。  

在 Java 中直接使用 Unicode 转码时会按照 UTF-16LE 的方式拆分,并加上 BOM。   如果采用 UTF-16 拆分,在 Java 中默认采用带有 BOM 的 UTF-16BE 拆分。

Little-Endian:就是低位字节排放在内存的低地址端,高位字节排放在内存的高地址端。

Big-Endian:就是高位字节排放在内存的低地址端,低位字节排放在内存的高地址端。

为什么UTF-8中看不到BOM头?

Unicode符号范围        |   UTF-8编码方式

(十六进制)             | (二进制)       #Unicode部分为16进制编码, UTF-8编码为2进制

—————————————————————–————————————–
0000-0000 007F   | 0xxxxxxx      #UTF-8规定,若1字符=1字节,首位须为‘0’
0080-0000 07FF   | 110xxxxx 10xxxxxx  #UTF-8规定,若1字符=2字节,高位字节前3位为‘110’,低位前2位为‘10’
0800-0000 FFFF   | 1110xxxx 10xxxxxx 10xxxxxx  #UTF-8规定,若1字符=3字节,高位字节前3位为‘110’,后面低位前2位一律为‘10’。(占4,5字节字符规则以此类推)

UTF-8 是采用 1~4 个字节来表示 Unicode 字符的,每个 Unicode 的 UTF-8 编码的 第一个字节是有一定范围的,如果读取到某个字节的最高位为 0 那么采用一个字节表 示,如果最高位是两个“1”就采用两个字节表示,最高位是三个“1”采用三个字节表 示,以此类推。多字节表示时,第二个和后面的字节的最高位只能是“10”,也就是说 UTF-8 编码时字符的第一个字节的最高位不可能是“10”。  因此,UTF-8 只能采用 Big-Endian 的 BOM 方式。BOM 头 U+FEFF,UTF-8 编码为 EF BB BF 就稳含掉了。

测试:

System.out.println("Unicode");
System.out.println("中"+Arrays.toString("中".getBytes("Unicode")));
System.out.println("文"+Arrays.toString("文".getBytes("Unicode")));
System.out.println("中文"+Arrays.toString("中文".getBytes("Unicode")));

System.out.println("UTF-8");
System.out.println("中"+Arrays.toString("中".getBytes("UTF-8")));

System.out.println("GBK");
System.out.println("中"+Arrays.toString("中".getBytes("GBK")));

输出:

在输出结果中可以看到,将字符串转换成Unicode编码的字节数组时,数组存在额外字节-2,-1。字节-2的补码为0xFE,字节-1的补码为0xFF,连起来FEFF表示Big-Endian。

猜你喜欢

转载自blog.csdn.net/shichimiyasatone/article/details/85117766
今日推荐