Unicode 详解

字符集&编码

charset 是 character set 的简写，即字符集。
encoding 是 charset encoding 的简写，即字符集编码，简称编码。

Unicode (UTF-8 UTF-16 UTF-32) 歧义

由于各种原因，必须承认，在不同的语境下，“Unicode”这个词有着不同的含义，它可能指：

Unicode 标准
Unicode 字符集
Unicode 的抽象编码（编号），也即码点（code point）。
Unicode 的一个具体编码实现，通常即为变长的 UTF-16（16 或 32 位），又或者是更早期的定长 16 位的 UCS-2。

编号编码

字符 <–> 编号 <–> 编码
编号与编码的主要区别在于编号不涉及具体使用多少字节来表示、是用定长还是变长方案等细节问题。编号仅仅是一个抽象的概念，是把字符数字化的一个过程。
字符集是一组映射关系[字符 - 编号] 具体字符被映射成一个唯一的code--码点例如：
- U+[XX]XXXX 是码点的表示形式，X 代表一个十六制数字，可以有 4-6 位，不足 4 位前补 0 补足 4 位，超过则按是几位就是几位。具体范围是 U+0000~U+10FFFF
- U+0048，U+00E6，U+4F60，U+1D11E（这是个五位的码点）
受编码影响编号通常也以十六进制形式书写，并保持固定的位数，不够就在前面填充 0，比如把 48 写成 0048；又比如： U+1D11E 就是一个一个五位的编号。
方便扩展，编码常跳过某些码位，甚至保留大片的区域未定义或作保留用途。

小结

code point - 码点 - 对字符的数字化抽象 - 不体现具体的编码转换格式
编码 - UTF(Unicode Transformation Format) - Unicode转换格式 - 将抽象的数字转化成具体的编码 - 编码对应[存储字节数、是否变长...]
Unicode 的核心就是为每个字符提供唯一一个数字编号。code point 例子： 'a' - 97 - 0061 - U+0061(码点 - 16进制)

具体编码格式

三种编码方案的定变长与字节数总结：

UTF-8：变长，1-4 字节；
UTF-16：变长，2 或 4 字节；
UTF-32：定长，4 字节。

定长与变长

在容量和效率之间全行，出现了变长的编码方案。
默认标示位，变长方案。损失了很多有效码位
出现了代理区做区分的方案

Unicode

Unicode 是 Unicode Standard（Unicode标准）的简写，所以 Unicode 即是指 Unicode 标准。
它脱离具体平台、语言，给每一个字符一个唯一的数字code--码点(code point)
码点的格式 U+[XX]XXXX X：代表一个十六制数字 可以有 4-6 位，不足 4 位前补 0 补足 4 位，超过则按是几位就是几位。以下是码点的一些具体示例：U+0048，U+4F60，U+1D11E。最后一个是5位的码点。
范围[U+0000,U+10FFFF] 理论大小为 10FFFF+1=110000(16进制)[FFFF+1 转10进制 = 65536 ]。是一个百万级别的数。
平面[Plane]为了更好分类管理如此庞大的码点数，把每 65536 个码点作为一个平面，总共 (1 x 16 + 1 )= 17 个平面。
- first Plane = BMP(Basic Multilingual Plane 基本多语言平面)，也叫 Plane 0，它的码点范围是 U+0000 ~ U+FFFF
- 后续的 16 个平面称为 SP（Supplementary Planes）。范围超过了 U+FFFF即超过了 4个byte了。
- CJK 统一汉字（CJK：Chinese, Japanese, and Korean，中日韩）在first plane 中间很大一片区域
- 还有一片空白区域--代理区这段空白从 D8~DF。其中前面的红色部分 D800–DBFF 属于高代理区（High Surrogate Area），后面的蓝色部分 DC00–DFFF 属于低代理区（Low Surrogate Area），各自的大小均为 4×256=1024。
UTF 即是 Unicode 转换格式(Unicode (or UCS) Transformation Format)
- UTF-32
  - 码点最大的 10FFFF 占 21 位，UTF-32 采用的定长4 byte 则是 32 位。高位补 0 的形式补够 32 位即可，缺点占用空间太大。
  - 4字节 XXXX XXXX XXXX XXXX XXXX XXXX XXXX XXXX
- UTF-8
  - 变长的编码方案：1，2，3，4 四种 byte 组合
  - 采用高位保留方式来区别不同变长
    - 1字节 0XXX XXXX
    - 2字节 110X XXXX 10XX XXXX
    - 3字节 1110 XXXX 10XX XXXX 10XX XXXX
    - 4字节 1111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX
  - 码点对应字节
    1. 转二进制，去掉高位0 判断采用几字节
    2. 一字节有效位7位兼容ASCII [码点] U+0000 ~ U+007F (0~127)
    3. 二字节 11位有效，2^11=2048 个编码空间码点 U+0080 ~ U+07FF (128~2047)
      - 这里码点从 128~2047，因为去掉了一字节的码点，所以不会占满 2048 个编码空间，是有冗余的，但你不能把适用于一字节的码点放到这里来编码。下同。
    4. 三字节 16位有效，65536 个编码空间码点U+0800~U+FFFF (2048~65535)
      - 存着绝大部分汉字
    5. 四字节 21位有效，前面说到最大的码点 10FFFF 也是 21 位，U+FFFF 以上的增补平面的字符都在这里来表示。
  - 码点转换
    1. 将码点转换成 2进制
    2. 将二进制数按照UTF-8 固定位分组
    3. 选中几字节模式后，高位不足补0
    4. 重新将 2进制数转换成16进制数
  - N 字节模式，首字节以“N 个 1 再加 0 ”打头，后跟“N-1”个以“10”打头的字节。
- UTF-16
  - 变长的 2 或 4 字节编码模式
    - BMP内的字符使用 2 字节编码
    - 其它的则使用 4 字节组成所谓的代理对来编码
  - 代理区
    - 鸟瞰图中，一片空白的区域，就是代理区（Surrogate Area），
    - 为了编码增补平面中的字符而保留的，总共有 2048 个位置，均分为高代理区（D800–DBFF）和低代理区（DC00–DFFF）两部分，各1024，这两个区组成一个二维的表格，共有:1024 × 1024 = 2^10×2^10 = 2^4×2^16 = 16×65536
    - 它恰好可以表示增补的 16 个平面中的所有字符
  - 码点转换
    - BMP 中直接对应，无须做任何转换
    - 增补平面 SP 中：
      1. 减去10000(16进制)[第一个平面中的所有码点]
      2. 除以代理区的行宽[ 1024(10进制) ] 商：第几个高代理区余数：第几个低代理区
      3. Lead = (码点 – 10000(16)) ÷ 40016 + D800 Trail = (码点 – 10000(16) % 40016 + DC00
    - 转换请用API 通过位移运算更高效

字符集&编码

Unicode (UTF-8 UTF-16 UTF-32) 歧义

编号 编码

小结

Unicode 的核心就是为每个字符提供唯一一个数字编号。code point 例子： 'a' - 97 - 0061 - U+0061(码点 - 16进制)

具体编码格式

定长与变长

Unicode

猜你喜欢

编号编码