【一起学习输入法】华宇拼音输入法开源版本解析(7)

【一起学习输入法】华宇拼音输入法开源版本解析(7)

          原创:good02xaut(CSDN)

      1. 计算机码型转换

 

计算机内部汉字信息的存储运算的代码有四种:输入码、国标码、内码和字型码。

  1. 输入码:又称外码,包括拼音编码和字型编码。微软拼音ABC就是拼音编码,五笔字型输入法就是字型编码。
  2. 国标码:又称为汉字交换码,在计算机之间交换信息用。用两个字节来表示,每个字节的最高位均为0,因此可以表示的汉字数为2的14次幂,就是16384个。将汉字区位码的高位字节、低位字节各加十进制数32(即十六进制数的20),便得到国标码。例如“中”字的国标码为8680(十进制)或7468(十六进制)。
  3. 内码:汉字内码是在设备和信息处理系统内部存储、处理、传输汉字用的代码。无论使用何种输入码,进入计算机后就立即被转换为机内码。规则是将国标码的高位字节、低位字节各自加上128(十进制)或80(十六进制)。例如,“中”字的内码以十六进制表示时应为F4E8(国标码D6D0)。这样做的目的是使汉字内码区别于西文的ASCII,因为每个西文字母的ASCII的高位均为0,而汉字内码的每个字节的高位均为1。
  4. 字型码(字符映射表):表示汉字字形的字模数据,因此也称为字模码,是汉字的输出形式。通常用点阵、矢量函数等表示。用点阵表示时,字形码指的就是这个汉字字形点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16*16点阵、提高型汉字为24*24点阵、48*48点阵等。如果是24*24点阵,每行24个点就是24个二进制位,存储一行代码需要3个字节。那么,24行共占用3*24=72个字节。计算公式:每行点数/8*行数。依此,对于48*48的点阵,一个汉字字形需要占用的存储空间为48/8*48=6*48=288个字节。

这四种汉字的代码和汉字编码字符集之间没有完全的对应关系,但是这些概念又非常重要,贯穿于汉字输入系统的方方面面。

发布了10 篇原创文章 · 获赞 10 · 访问量 1499

猜你喜欢

转载自blog.csdn.net/good02xaut/article/details/103998720