有时候使用开发的时候会被各种编码解码的事情所困扰，尤其是使用Python的时候，Python2和Python3之间又有很多的区别。同时，还有时候，会被IDE报的各种错误弄得眼花缭乱，于是这两期准备好好总结一下字符编码的事情。这一期首先介绍一下常见的一些编码的概念，下一期介绍一下python中如何对编码进行检测和转换。

ASCII码

上世纪五六十年代的时候，人们发明了计算机，用于做一些计算工作。但是，随着慢慢的发展，人们逐渐希望可以使用电子管来表示字符。当然，一个电子管肯定是不够的，必然是多个电子管的组合，那么到底用几个电子管呢？计算机是美国人发明的，英文字母大写加小写一起才52个，再加上10个数字，62个，再加上一些控制字符，大体上也没有太多，7个电子管足够了。于是，一种类似摩尔斯电码的编码出现了，

美国国家标准学会（AMERICAN NATIONAL STANDARDS INSTITUTE: ANSI）提出了一种"Ascii"编码（American Standard Code for Information Interchange，美国信息互换标准代码）其中，前32个是控制码，后面的95个分别从小到大表示标点、数字、大写字母，小写字母。这127个字符也被称为“基础ASCII码”。

扩充的ASCII码（GBK,Big5等）

在ASCII码的基础上，对于不在此范围内的字符进行扩展。对于0~127还是一个字节表示一个英文字符，这是与Unicode编码最大也是最明显的区别。

对此，各个国家有不同的扩展方式。由此产生了 GB2312（中文）、GBK（中文）、GB18030（中文）、Big5（繁体中文，台湾）、Shift_JIS （日本）等各自的编码标准。不同 ANSI 编码之间互不兼容，当信息在国际间交流时，无法将属于两种语言的文字，存储在同一段 ANSI 编码的文本中。比如对于中文来说的话，中华文化博大精深，1字节（8位）肯定是不能满足需求的，于是，充满智慧的中国人民就想着使用两个字节来表示一个汉字。因此，汉字也被称为“双字节字符集”。汉字编码有GB2312、GBK、GB18030，以下谈一下三者的区别于联系。

GB2312：当两个字节都大于127时，认为这两个字节组成一个汉字，在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长的编码，这就是常说的"全角"字符，而原来在127号以下的那些就叫"半角"字符了。

GBK：只要第一个字节是大于127的，就认为它是一个汉字的开始。总共扩充至20000个左右。

GB18030：在GBK的基础上加入了几千个少数民族文字。

以上的三种编码通称为"DBCS"（Double Byte Charecter Set 双字节字符集）

它们之间具有一定的包含关系：

GB2312<GBK<GB18030

兼这三种编码是向下兼容的，不同编码规范中相同的字符总是拥有相同的编码，后面的标准支持更多的字符。

问题：

各个国家都像中国这样搞出一套自己的编码标准，结果互相之间谁也不懂谁的编码，谁也不支持别人的编码，连大陆和台湾也分别采用了不同的 DBCS 编码方案——当时的中国人想让电脑显示汉字，就必须装上一个"汉字系统"，专门用来处理汉字的显示、输入的问题，但是台湾就必须加装另一套支持 BIG5 编码的"倚天汉字系统"才可以用，装错了字符系统，显示就会乱了套！

ISO（国际标准化组织）决定解决这个问题，于是他们推出了Unicode编码。

Unicode码

"Universal Multiple-Octet Coded Character Set"，简称 UCS, 俗称 “UNICODE”。意图把地球上所有的字符进行统一编码，采用两个字节来表示所有的字符，即使是原来的半角字符（将它们的高八位置0）。也称为万国码。如汉字“汉”，Unicode码为0x6c49。两个字节可以表示的数的范围是0~65535，刚开始设计Unicode的那群人觉得这（UCS2）对于世界上的几乎所有的语言文字够用了，要知道，常用的汉字才大约6000多个。但是，搞着搞着，发现不太够，于是就想着扩展到UCS4。然而这对于资源是一种极大的浪费。前面有提到，ascii码不论是基础的还是扩展的都有一个特点，那就是对于英文字母和数字依然保持其原有的编码方式。现在世界上使用最流行的语言是英语（虽然使用人数最多的语言是汉语T_T），所以老外肯定不干了。

在我们的计算机中，内存中使用的是Unicode编码，硬盘中使用的是其它编码。试想如果硬盘中也用的是Unicode编码的话，那将对资源进行怎样的浪费。

上面提到的Unicode码只是一种编码方案，但是并不是存储方案，或者说实现方案。于是，为了考虑到英文字符使用的普遍性，就推出了UTF-8,UTF-6等一系列存储方案。

UTF-8

UTF-8 （8-bit Unicode Transformation Format）针对Unicode的可变长的字符编码。UTF-8用1到6个字节编码Unicode字符。每次传输8位数据！（UTF-16等同理）

实际表示ASCII字符的UNICODE字符，将会编码成1个字节，并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列，由n位连续的1加一位0组成, 首字节连续的1的个数表示字符编码所需的字节数。Unicode转换为UTF-8时，可以将Unicode二进制从低位往高位取出二进制数字，每次取6位，如上述的二进制就可以分别取出为如下示例所示的格式，前面按格式填补，不足8位用0填补。