GBK转UTF8学习笔记

UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码 如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符

Byte 1 Byte 2  Byte3
0xxxxxxx    
110xxxxx 10xx xxxx  
1110xxxx 10xx xxxx 10xx xxxx

 //单字节字符 1个字节的UTF-8十六进制编码一定是以比8小的数字开头的

//双字节字符 2个字节的UTF-8十六进制编码一定是以C或D开头的

//三字节字符 3个字节的UTF-8十六进制编码一定是以E开头的

// utf-8\u4E00-\u9FFF,这个包含了常用的汉字、日文和韩文

// GBK 8140至FEFE

GBK中文是由2个字节16位组成

转UTF-8时,变成3个字节

Byte 1 Byte 2  Byte3
1110+前4位 10+后6位 10+最后6位

部分代码如下

// 第一个这字放4位,第二个字节放6位,第三个字节放6位
b[0] = (byte) (0xe0 | (m >> 12));
b[1] = (byte) (0x80 | ((m >> 6) & 0x3f));
b[2] = (byte) (0x80 | (m & 0x3f));
return new String(b, "UTF-8")

  

这样就可以将GBK中文转成utf-8了,当然实际转换过程中还要考虑英文数字等其它字符的问题。

猜你喜欢

转载自yxjajl.iteye.com/blog/2326481