关于IO流处理数据时的GBK编码问题

不管是使用的哪种编码(字符集),在底层存储的时候都是0,1来存储的。
但是在GBK编码(一个字符占用2个字节)中,为了节省空间,英文字符和数字也就是ASCII码那些,还是占用1个字节。
假设需要存储 “abc中国”,那么此时如果用gbk编码存储,应该是 3 + 4 = 7个字节。
问题来了,a,b,c这三个字符每个只占用一个字节,而中,国这两个字符每个占用2个字节,计算机在解码
的时候如何知道当前这一个字节是一个完整的字符还是只是一个汉字的一半字节呢?

GBK编码解决:在进行解码的时候,如果当前的这个字节表示的是一个完整的字符,则最高位是0,如字符a只占用一个字节,则最高位是0,
如0xxxxxxx,最高位是0的,表示当前字节是一个完整的字节,最高位是1,表示当前字节和下一个字节是一个完整的字符。这样就巧妙解决了在解码的时候到底是取一个字节还是两个字节。妙哉妙哉!

猜你喜欢

转载自blog.csdn.net/qq_43750656/article/details/121348857