搞清楚字符编码7-万国码[3]

这篇博客介绍万国码中的实际存储编码ucs-2

变长存储与不变长存储

ucs-2是我们介绍的第一种实际存储编码,对实际存储编码我们要先说两个概念:变长存储不变长存储

  • 变长存储:各个字符编码的长度可能不同,如utf-8
  • 不变长存储:每个字符编码的长度都是相同的,如ucs-2utf-32

ucs-2是什么

  • ucs2是一种理论编码
  • ucs-2是一种实际存储编码,它是对ucs2的实现.
  • ucs-2编码有时也称为Unicode编码

ucs-2的特点

  • ucs-2每个编码都是2个字节,不变长存储.
  • 最多可以有65536个编码.

引出utf-8

  • 在ucs-2中每个字符都是2个字节,对于汉字来说还好,所在的汉字这两个字节都会用到.
  • 但对于拉丁字符,就会浪费高8位的那个一字节,例如A在ucs-2中的编码就是00000000 01000001,高8位的那个0就是为了2个字节的定长存储填充上去的,显然这个字节的空间就浪费了.
  • 为了解决这个问题,出现了utf-8

猜你喜欢

转载自blog.csdn.net/Sacredness/article/details/93379949
今日推荐