ASCII、UNICODE、UTF

在计算机中，一个字节对应8位，每位可以用0或1表示，因此一个字节可以表示256种情况。

ascii

美国人用了一个字节中的后7位来表达他们常用的字符，最高位一直是0，这便是ascii码。

因此ascii码是英语中字符与计算机二进制相互转换对照的一个字典。每个ascii码占一个字节。

对于英语来说，128个字符已经足够用了，但是对于其他语言来说256个字符位可能也不一定够用。因此美国人又提出了ANSI这种针对其他国家语言的规范，0-127与ascii相同，其他的继续往后排，如中国的GB2312、GBK、GB18030、Big5、日本的Shift_JIS等。ascii中

的字符占一个字节，其他符号占两个字节。如果在美国给中国发一封邮件，默认编码为ascii码，但在中国用默认的GBK解析的时候就会发生乱码，为了避免这种情况，需要制造一个全球统一的编码格式。这时候unicode便出现了

unicode

需要注意的是，Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如何存储。全球那么多语言和符号，可以想象的到排在后面的符号可能占用三个、四个甚至更过的字节长度，

这就导致了一些问题，计算机怎么知道你这个 2 个字节表示的是一个字符，而不是分别表示两个字符呢？这里我们可能会想到，那就取个最大的，假如 Unicode 中最大的字符用 4 字节就可以表示了，那么我们就将所有的字符都用 4 个字节来表示，不够的就往前面补 0

这样确实可以解决编码问题，但是却造成了空间的极大浪费，如果是一个英文文档，那文件大小就大出了 3 倍，这显然是无法接受的。

于是，为了较好的解决 Unicode 的编码问题， UTF-8 和 UTF-16 两种当前比较流行的编码方式诞生了。当然还有一个 UTF-32 的编码方式，也就是上述那种定长编码，字符统一使用 4 个字节，虽然看似方便，但是却不如另外两种编码方式使用广泛

utf-8

这里腾讯出的一道面试题来介绍一下

UTF-8 最大的一个特点，就是它是一种变长的编码方式。它可以使用1~4个字节表示一个符号，根据不同的符号而变化字节长度。

UTF-8 的编码规则很简单，只有二条：

1）对于单字节的符号，字节的第一位设为0，后面7位为这个符号的 Unicode 码。因此对于英语字母，UTF-8 编码和 ASCII 码是相同的。

2）对于n字节的符号（n > 1），第一个字节的前n位都设为1，第n + 1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的 Unicode 码。

下表总结了编码规则，字母x表示可用编码的位。

Unicode符号范围 | UTF-8编码方式

跟据上表，解读 UTF-8 编码非常简单。如果一个字节的第一位是0，则这个字节单独就是一个字符；如果第一位是1，则连续有多少个1，就表示当前字符占用多少个字节。

搞清楚了ASCII、Unicode和UTF-8的关系，我们就可以总结一下现在计算机系统通用的字符编码工作方式：(1) 在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。（2）用记事本编辑的时候，从文件读取的UTF-8字符

被转换为Unicode字符到内存里，编辑完成后，保存的时候再把Unicode转换为UTF-8保存到文件（图片从网上找的）。