关于String的getBytes()和charAt()

问题:
请教 关于字符编码 和 String.getBytes() 的问题.


public static void main(String[] args) throws UnsupportedEncodingException {

String s = "中";
for(int i = 0;i<s.length();i++){
System.out.println((int)s.charAt(i));
System.out.println(Integer.toHexString((int)s.charAt(i)));
}
byte[] b = s.getBytes("gb2312");
for(int i = 0;i<b.length;i++){
System.out.println(Integer.toHexString(b[i]));
}
System.out.println("**************************************");
byte[] b2 = s.getBytes("unicode");
for(int i = 0;i<b2.length;i++){
System.out.println(Integer.toHexString(b2[i]));
}
System.out.println("**************************************");

System.out.println(System.getProperty("file.encoding"));

}

输出结果 如下:

20013
4e2d
ffffffd6
ffffffd0
**************************************
ffffffff
fffffffe
2d
4e
**************************************
GBK


我的问题如下:
首先 我知道 我的本机的 默认编码 是GBK  ,中 这个字符的 UNICODE 编码为 4e2d 它对应的数字是 20013.  ‘中’这个字符对应的GBK 是d6d0  byte[] b = s.getBytes("gb2312"); 这是获得 中 在gb2312编码下的 字节数组。
我跟断点  b 里面的值 为什么 是 [-42,-48]???


byte[] b2 = s.getBytes("unicode");
这个 是获得 '中' 的 unicode 编码的 字节数组?   我看断点 b2 中 为什么是 [-1,-2,45,78]?

将其 转化16进制System.out.println(Integer.toHexString(b2[i]));
为什么输出结果 是
ffffffff
fffffffe
2d
4e
这个 是 2d  4e     那为什么 最上面 输出是 20013  4e2d 为什么顺序不一样呢 ? 

十分感谢
=================================================================================

我跟断点  b 里面的值 为什么 是 [-42,-48]??

b是一个字节数组,字节的取值范围是-128~127
就是说,一个字节范围数字0~FF,大于127的都被解释为负值了
D6也是一样,对应的负值(它的补码)就是-42

-----------------------------------
byte[] b2 = s.getBytes("unicode");
这个 是获得 '中' 的 unicode 编码的 字节数组?   我看断点 b2 中 为什么是 [-1,-2,45,78]?

-1,-2 是unicode编码的前导码,也就是FFFE,
Unicode规范建议在对码位进行编码前,先提供一个表示字节顺序的前导码。对Little-Endian,前导码为FFFE,对Big-Endian,前导码为FEFF。

后面的42,78  十进制对应的十六进制就是2d4e

-------------------------------------
这个 是 2d  4e     那为什么 最上面 输出是 20013  4e2d 为什么顺序不一样呢 ? 

你输出的4e2d是java的字符编码(也是unicode编码),但打印的次序是Big-Endian
即:高字节在前,低字节在后,和前面打印的Little-Endian恰好相反。

猜你喜欢

转载自asdf314159265.iteye.com/blog/1718764