GBK编码

在软件开发过程中,尤其是涉及到数据库的项目,通常都会遇到字符编码的问题。

其中,中文字符集编码常用的有GB2312和GBK,以及万国码UTF8,另外还有GB18030。

ASCII码每个字符占一个字节;GB2312是GBK的子集,两个字符集都是每个字符占两个字节;GB18030是GBK的取代版本,每个字符占一个、两个或四个字节;UFT8是万国码,每个字符占一个、两个或三个字节。

下图是GBK字符编码表。

图是265*256的矩阵,表示两个字节可以表示的所有字符。水平方向表示高字节,从左至右为0000~FF00;垂直方向表示低字节,从上到下为0000~00FF。

左侧0区:0000~007F,ASCII码区。

右下色块区:8140~FEFE(需剔除a区817F~FE7F),GBK编码区。

GBK编码分三部分。

一、汉字区

  1. 2区:B0A1~F7FE,GBK/2,GB2312汉字区,GB2312汉字6763个。

  2. GB13000.1扩充汉字区

    1. 3区:8140~A0FE,GBK/3,GB13000.1中的CJK汉字6080个。

    2. 4区:AA40~FEA0,GBK/4,CJK汉字和增补的汉字8160个。

二、图形符号区

  1. 1区:A1A1~A9FE,GBK/1,GB2312非汉字符号区。除GB2312的符号外,还有10个小写罗马数字和GB12345增补的符号。计符号717个。

  2. 5区:A840~A9A0,GBK/5,GB13000.1扩充非汉字区。包含BIG-5 非汉字符号、结构符和汉字“〇”。计符号166个。

三、用户自定义区

  1. A区:AAA1~AFFE,码位564个。

  2. B区:F8A1~FEFE,码位658个。

  3. C区:A140~A7A0,码位672个。

猜你喜欢

转载自my.oschina.net/u/209067/blog/1581977
今日推荐