java中字符与字节的编码关系

原文地址:http://www.cnblogs.com/o-andy-o/archive/2012/04/11/2441940.html

一个英文字母字符存储需要1个字节。在 GB 2312 编码或 GBK 编码中，一个汉字字符存储需要2个字节。在UTF-8编码中，一个英文字母字符存储需要1个字节，一个汉字字符储存需要3到4个字节。在UTF-16编码中，一个英文字母字符或一个汉字字符存储都需要2个字节（Unicode扩展区的一些汉字存储需要4个字节）。在UTF-32编码中，世界上任何字符的存储都需要4个字节。

其次还要知道一点常识，就是我们在记事本等一些文本工具中写的都是字符，没有谁会去写字节（可以写字节，但是要用具特殊的编辑器），但是其实，我们的写的是字符，但磁盘上真实存储的是字节。

这里就出现了转换的问题，当然，这些问题记事本本身会帮助我们解决。我们打开一个记事本，然后文件--另存为，你会发现有几种存储格式供您选择，
ANSI格式：就是ascii的格式
Unicode格式：采用国际通用的编码存储
Unicode big endian格式：这个和unicode有点区别，但我也不明太具体的不同
UTF-8：采用utf-8存储，看过上面的两篇文章，你会十分的了解这里介绍的编码。Utf-8，是unicode的一种实现方式。

例如我们在记事本里面输入“连通”两个字。

1.我们另存记事本的时候，采用unicode存储，那么虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实
8FDE（连） 901A （通），这个是规定的，unicode是国际上规定的，给世界上的每个字符分配的唯一编码。获取某个字符的unicode的方法，可以去网上查找，最简单的方法，就是打开word文档，输入字符，把光标移动到字符后面，按alt+x，word会自动把字符转换成unicode编码，这里呢我们也可以看到，用unicode存储汉字啊，每个汉字占用两个字节。

2.我们另存记事本的时候，采用utf-8存储，虽然我们看到的字符还是“连通”，但是其实存储在磁盘上的字节确实已经变化了，这时候存储的是
E8 BF 9E （连）E9 80 9A（通）。这就是utf-8的存储的编码，至于utf-8为什么这样存储，你可以阅读上面的两篇文章来了解，可以看到，utf-8使用3个字节存储一个汉字。

另外我们还要知道的就是：电脑怎么区分一个记事本是用什么存储的呢？
换句话说，为什么我用unicode存储的8FDE（连） 901A （通），电脑就知道这是unicode编码，从而使用unicode解码，还原为“连通”呢？电脑又怎么知道E8 BF 9E （连）E9 80 9A（通）这是按照utf-8的存储方式存储的呢？

这里有一点标记，就是在存储字节的时候，记事本首先在最前面标明，这个记事本下面的存储格式是utf-8，还是unicode。

例如，

1.unicode存储“连通”。磁盘字节真实存储的其实是：

FF FE 8FDE 901A

前两个FF FE是标记，告诉电脑，这个文档的存储方式是unicode

2.utf-8存储“连通”。磁盘字节真实存储的其实是：

EF BB BF E8 BF 9E E9 80 9A

前三个EF BB BF 告诉电脑这个文档是utf-8存储的

一步一个脚印，方便自己复习，该出手时就出手，有错误，一定要指正，非常感谢，共同进步！

java中字符与字节的编码关系

猜你喜欢