UTF-8(8-bit Unicode Transformation Format)是一种针对Unicode的可变长度字符编码,又称万国码 如果UNICODE字符由2个字节表示,则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示,则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了,但很少会遇到那样的UNICODE字符
Byte 1 | Byte 2 | Byte3 |
0xxxxxxx | ||
110xxxxx | 10xx xxxx | |
1110xxxx | 10xx xxxx | 10xx xxxx |
//单字节字符 1个字节的UTF-8十六进制编码一定是以比8小的数字开头的
//双字节字符 2个字节的UTF-8十六进制编码一定是以C或D开头的
//三字节字符 3个字节的UTF-8十六进制编码一定是以E开头的
// utf-8\u4E00-\u9FFF,这个包含了常用的汉字、日文和韩文
// GBK 8140至FEFE
GBK中文是由2个字节16位组成
转UTF-8时,变成3个字节
Byte 1 | Byte 2 | Byte3 |
1110+前4位 | 10+后6位 | 10+最后6位 |
部分代码如下
// 第一个这字放4位,第二个字节放6位,第三个字节放6位 b[0] = (byte) (0xe0 | (m >> 12)); b[1] = (byte) (0x80 | ((m >> 6) & 0x3f)); b[2] = (byte) (0x80 | (m & 0x3f)); return new String(b, "UTF-8")
这样就可以将GBK中文转成utf-8了,当然实际转换过程中还要考虑英文数字等其它字符的问题。