《数学之美》笔记3

第三章 统计语言模型

计算机处理自然语言,基本问题就是为自然语言这种上下文相关的特性建立数学模型,即统计语言模型。

3.1 用数学的方法描述语言规律

贾里尼克首次利用统计概率模型解决了语言识别问题,即利用不同句子出现的概率来判断句法是否正确。
条件概率的问题:根据前面所有词语推测后面的词语概率。
解决办法:马尔科夫假设(任一词语概率只跟前面一个词语相关),由此产生二元统计模型。
然后将二元的条件概率展开:
在这里插入图片描述
计算联合概率和边缘概率方法:利用语料库
根据大数定律:(利用数量表述)
在这里插入图片描述
统计语言模型的典型应用:Google的Google Voice和中英文自动翻译(罗塞塔)

3.2 延伸阅读

高阶语言模型:多元统计模型
模型训练,零概率问题和平滑问题(语料库大小问题)
语料的选取问题

猜你喜欢

转载自blog.csdn.net/DMU_lzq1996/article/details/83239836
今日推荐