计算机编码格式

常见编码词  ASCII, ISO-8859-1, GB2312,GBK,  GB18030,  ISO-10646, Unicode, UTF-8,  UTF-16 ...


1. ASCII 编码,起源很早,就一个字节。(7位或者8位)

2. ISO-8859-1 是覆盖了大多数西欧语言的编码格式。也算一个字节。

3. GB2312 是为汉字设计的,采用两个字节,所以最大可以支持 256 * 256 = 6w+ 个汉字。

  • GB 2312 的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75% 的使用频率。
  • 对于人名、古汉语等方面出现的罕用字,GB 2312 不能处理,这导致了后来 GBK 及 GB 18030 汉字字符集的出现。

4. GBK 汉字内码扩展规范K 为汉语拼音 Kuo Zhan(扩展)中“扩”字的声母。英文全称 Chinese Internal Code Specification。向下与GB 2312 完全兼容,向上支持ISO-10646国际标准。也是两个字节。

5. GB 18030,全称:国家标准 GB 18030-2005《信息技术中文编码字符集》,是中华人民共和国现时最新的内码字集。

GB 18030 与 GB 2312-1980 和 GBK 兼容,共收录汉字70244个。
  • 与 UTF-8 相同,采用多字节编码,每个字可以由 1 个、2 个或 4 个字节组成。
  • 编码空间庞大,最多可定义 161 万个字符。
  • 支持中国国内少数民族的文字,不需要动用造字区。
  • 汉字收录范围包含繁体汉字以及日韩汉字
GB 18030 编码是一二四字节变长编码。
  • 单字节,其值从 0 到 0x7F,与 ASCII 编码兼容。
  • 双字节,第一个字节的值从 0x81 到 0xFE,第二个字节的值从 0x40 到 0xFE(不包括0x7F),与 GBK 标准兼容。
  • 四字节,第一个字节的值从 0x81 到 0xFE,第二个字节的值从 0x30 到 0x39,第三个字节从0x81 到 0xFE,第四个字节从 0x30 到 0x39。
  • 注:GB 2312, GBK, GB 18030 转自知乎 : https://www.zhihu.com/question/19677619

6. ISO-10646 通用字符集英语:Universal Character Set, UCS)是由ISO制定的ISO 10646(或称ISO/IEC 10646)标准所定义的标 准字符集。采用31个字节。通用字符集包括了其他所有字符集。它保证了与其他字符集的双向兼容,即,如果你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,你不会丢失任何信息。

7. Unicode 全称(Universal code)是一个致力于包括世界所以语言的字符集。只是一个字符集,不是编码规则。

8. UTF-8 首先UTF是"Unicode/UCS Transformation Format"的首字母缩写,它是Unicode的一种格式编码实现,其中的8很容易让人误解,不是表示一个字节的意思,它是可变长的(1-4个字节)。

扫描二维码关注公众号,回复: 957738 查看本文章

9. UTF-16也是Unicode的一种实现,大部分采用2个字节,Java的编码就是使用它,也会被叫Unicode 16.


猜你喜欢

转载自blog.csdn.net/chenbetter1996/article/details/80237781
今日推荐