自然语言处理综论-第3章小结-形态学与有限状态转录机

自然语言处理综论-第3章小结-形态学与有限状态转录机


本章介绍自然语言处理中的形态学,主要涉及词的构成、有限状态转录机以及用于模拟形态规则的一些共同使用的计算工具。

  • 形态剖析是发现在词中所包含的连续语素的过程(如,cats剖析为cat+N+PL)。
  • 英语主要使用前缀和后缀来表示屈折形态和派生形态。
  • 英语的屈折形态相对简单,包括人称和数的一致关系以及时态标志(-ed和-ing)。
  • 英语的派生形态比较复杂,包括诸如-action,-ness和-able这样的后缀以及诸如-co和re-这样的前缀。
  • 英语的形态顺序规则(可允许的语素的顺序)可以用有限自动机来表示。
  • 有限状态转录机是能生成输出符号的有限自动机的扩充。
  • 双层形态学把有限状态转录机应用于形态表示和剖析。
  • 拼写规则可以用转录机来实现。
  • 存在着转录机的自动编译程序,该编译程序对于任何简单的重写规则都能造出一个转录机来。
  • 词表和规则可以通过组合和交合不同的转录机而结合起来。
  • Porter算法是从词干剥离词缀的简单有效的方法。它没有像包含词表的转录机模型那样精确,因此可以应用于诸如信息检索这样的领域,其中不需要精确的形态结构剖析。

猜你喜欢

转载自blog.csdn.net/qq_17065591/article/details/108113597