我所了解的GB2312、Unicode、GBK、UFT-8、BIG5等编码

版权声明:本文为博主原创,未经允许不得转载 https://blog.csdn.net/Yangchenju/article/details/84196197


小编一直对文字编码感到模糊,在学习、编程等过程中也经常会遇到与之相关的问题,无奈只能问百度。于是,为解决这一问题,小编花了一些时日了解和学习这些编码,整理出了这些编码的“性格特点”,“兴趣爱好”等等(文章中可能不全面,接受建议)。
有关文章参见: 趣谈unicode,ansi,utf-8,unicode big endian这些编码有什么区别
在这之前,我得先提一下 ASCII码(American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是现今 最通用单字节编码系统,并等同于国际标准ISO/IEC 646(ISO是国际字符集编码标准)。
在早期,人们用 8 位二进制来编码英文字母(最前面的一位是 0),也就是说,将英文字母和一些常用的字符和这 128 中二进制 0、1 串一 一对应起来,比如说 大写字母“A”所对应的二进制位“01000001”,转换为十六进制为 41。在美国,这 128 是够了,但其他国家也需要计算机,也需要编码表示自己国家的文字,于是在此基础上或是重新编码生出了很多的编码版本,本文只介绍与汉字有关的编码。
了解了ASCII码以后,我们就可以容易的了解以下内容,其实其他一系列编码一般离不开它。下面开始进入正题,介绍他们各自特点。

1. GB2312

“GB"是汉语拼英"guobiao”/"国标"的缩写,中国汉字编码标准,是一种不等长编码。GB系列从发展历程来看有很多,有GB7859,GB13000等等有简体中文也有繁体汉字,不细说,数GB2312最为基本和常用,它是对ASCII的中文扩展。约6763个简体汉字。

2. GBK

GBK是GB2312向GB13000过渡的一个中间产物,向下兼容GB2312的EUC编码,字汇(字符集)和GB13000相同,是GB2312的3倍,即包含GB2312的同时,又增加了近20000个新的汉字(简体、繁体),同时还包含BIG5(后面有说明)、Shift-JIS、KSC的字汇。在具体应用中,可以同时显示以上文字,但是除了GB2312,其他的需要进行转换。
顺便提一下,也许我们会经常看见 ANSI 码,其实就是GBK(在简体中文Windows系统中代表GBK,在繁体中文Windows系统中代表BIG5、在日文Windows系统中代表Shift-JIS)。

3. Unicode

为了统一世界上的所有文字而产生的多字节等长编码, Unicode为世界上的所有文字分配了一个唯一的数字符号,范围:0x000000-0x10FFFF(十六进制),有110多万,每个字符都有一个唯一的 Unicode 编号,这个编号一般写成 16 进制,在前面加上 U+。例如:“马”的 Unicode 是U+9A6C。
缺点:在制定时没有考虑,与任何一种现有的编码兼容(当然这是很难做到的,那时每个国家已经派生出许多版本),使得GBK与Unicode在汉字的内码编排上完全不一样,没有一种简单的算法可以把文本内容从Unicode和另一种编码进行交换,这种转换必须通过查表进行。

4. UTF-8

UTF-8是ASCII系统转向Unicode系统的一个过渡解决方案。UTF-8使用变长字节表示,顾名思义,就是使用的字节数可变,这个变化是根据 Unicode 编号的大小有关,编号小的使用的字节就少,编号大的使用的字节就多。使用的字节个数从 1 到 4 个不等。其中英文字母用一个字节表示,汉字用3个字节表示。
关于UTF-8的编码规则,这里小编推荐一篇超级棒的文章:UTF-8的编码规则

5. BIG5

BIG5是目前中国台湾和中国香港地区普遍使用的一种繁体汉字的编码标准,包括440个符号,一级汉字5401个,二级汉字7652个,共计13060个汉字,所谓一级汉字与二级汉字对应于常用汉字和不常用汉字
编码范围和区域描述如下表:

范围 区域描述
8140-A0FE 用户造字区
A140-A3BF 符号区
A3C0-A3FE 保留区
A440-C67E 常用字区
C6A1-C8FE 用户造字区
C940-F9D5 次常用字区
F9D6-FEFE 用户造字区

猜你喜欢

转载自blog.csdn.net/Yangchenju/article/details/84196197