COMS W4705: Natural Language Processing学习笔记(一)


Machine Translation(机器翻译)Information Extraction(信息提取),Text Summarization(文本归纳),Dialogue Systems (对话系统)

最基本的nlp问题叫做Tagging(词性标注)

1.语言建模问题

    一种简单的估计方法:



2.Trigram模型

       语言模型中使用最为广泛的模型叫做Markov模型

        在一个一阶马尔可夫链中,我们假设一个特定的概率只与它前面一个状态有关.

         二阶/三阶类似.

扫描二维码关注公众号,回复: 1513627 查看本文章

        N-Gram是基于一个假设:第n个词出现与前n-1个词相关,而与其他任何词不相关。

        

        估计:


3.语言模型复杂度评估

      

估计方法:

Bias-Variance----简单的模型容易欠拟合,复杂的模型容易过拟合, 不能单单看perplexity来说一个模型的好坏


       3.1 线性插值法


        3.2 Discounting methods



        3.3 Katz Back-Off Models




猜你喜欢

转载自blog.csdn.net/juranyaoyingwen/article/details/79708361