自然语言处理综论-第4章小结-计算音系学与文本-语音转换

自然语言处理综论-第4章小结-计算音系学与文本-语音转换


本章介绍了理解口语处理时需要的一些重要概念。

  • 可以用称为音子(phone)的单位来表示词的发音。表示音子的标准系统是国际音标或IPA。使用ASCII字符的另一个只适用于英语的转写系统是ARPAbet。
  • 根据发音器官如何产生音子可以对音子进行描述,根据辅音的发音部位和发音方法以及浊音化(voicing)的情况可以对辅音进行描述,根据舌位的前后可以对元音进行描述。
  • 音位是对不同语音情况的一般化和抽象。音位变体规则描述一个音位在给定的上下文环境中的实现情况。
  • 转录机可以用来模拟音位规则,其方法与在第3章中模拟拼写规则的方法一样。双层形态学是一种形态学/音系学的理论。这种理论把形态规则模拟为对于词汇形式和表层形式之间映射的一种有限状态的、良构的限制(well-formedness constraint)。
  • 发音词典既可以用于文本-语音转换,也可以用于语音自动识别。发音词典要给出单词的发音,这种发音是音子的序列,有时也包括音节划分(syllabification)和重音。大多数联机发音词典的规模为10万词左右,但是还缺少专有名词、首字母缩写词和屈折变化形式。
  • 文本-语音转换系统中的文本分析(text-analysis)部分把符合正词法的文字串映射为音子串。这通常要使用大型的发音词典来进行。大型的发音词典是在发音词典的基础上提升而成的,它应该带有一个用于处理能产性的形态规则、发音变化、专有名词、数字以及首字母缩写词的系统(这样的系统犹如一个转录机)。

猜你喜欢

转载自blog.csdn.net/qq_17065591/article/details/108113727