本文链接： https://blog.csdn.net/dongzixian/article/details/100624346

基础认知

语言学的目的是为了能够描述和解释我们周围的语言现象。

人们对在自然语言处理中使用统计方法抱有的热情，在很大程度上是因为他们看到了统计方法在解决实际问题时的前景，而这些问题正是传统方法无法解决的。大家对语言使用形式的频率感兴趣是有清晰的，毋庸置疑的科学原因的。（统计学是研究语言的一种方法）

语言和认知是随机现象：把概率作为理解语言的一种科学方法的最基本论点认为，人类的认知是随机的，因此语言也是随机的，因为它是认知的一个完整部分。

在语言中，大部分句子都是二值可分的（合乎语法、不合乎语法），而且在大多数情况下，单词只使用一个词性，没有词性混合的现象。但是如果语言和认知作为一个整体，最好的解释就是概率，那么解释语言理论的中心内容就必须是概率论。

数学基础

概率论基础
信息论基础

语料库—计算机

统计自然语言处理方法不仅需要大量的空间来存储语料，而且经常需要从语料库中收集大量的统计信息，所以要求计算机有比较快的存取速度。这就需要一台硬盘足够大，内存足够多的计算机。

搭配

“搭配”是由两个或两个以上的词所组成的语言表示，相当于说某些事情的习惯方式。

1.频率
在一个文本语料库中寻找搭配的最简单的方法就是计数。如果两个词在一起出现了很多次，那么这就是一个证据，说明它们有特殊的功能，这种功能不能简单解释为两个词合并而导致的结果。
2.均值和方差
基于频率的搜索方法可以很好地解决固定短语的识别问题，但是很多搭配是两词搭配，并且彼此之间的关系非常灵活。
对于有些组合来说，它可能不是一个我们想要的严格术语意义上的搭配，但是对于文本生成的目的来说它可能非常有用。如果我们想要寻找这样的词汇组合，在这些词汇组合之间的联系比固定短语之间的联系更加松散，并且在他们之间插入的符号及其相对位置都是可变的，那么这种基于方差的搭配发现方法是一个正确的选择。
3. 假设检验
我们掩盖至今的一个难题是，高频率和低方差可能是偶然出现的。如果一个频繁出现的二元组的两个构成词也是频繁出现的词，那么我们可以预期这两个词同现很多次仅仅是一个偶然现象，它们甚至不能形成一个搭配。
事实上，我们真正想知道的是两个词同现的次数是否比偶然同现的次数更多。评价一个事件是否是偶然事件是统计学的经典问题之一。我们通常用假设检验来评价。
4.互信息
粗略地说是一种度量形式，表明一个词和其他词语有多大的联系。
我们可以说，互信息是衡量独立性的一种很好的方法。接近0的互信息值表明了独立性。但是互信息不是衡量依赖性的一种很好的方法，因为对于依赖性来说，互信息的值是由单独词的频率决定的。

统计自然语言处理基础（一）

基础认知

语言学的目的是为了能够描述和解释我们周围的语言现象。

语言和认知是随机现象：把概率作为理解语言的一种科学方法的最基本论点认为，人类的认知是随机的，因此语言也是随机的，因为它是认知的一个完整部分。

数学基础

语料库—计算机

统计自然语言处理方法不仅需要大量的空间来存储语料，而且经常需要从语料库中收集大量的统计信息，所以要求计算机有比较快的存取速度。这就需要一台硬盘足够大，内存足够多的计算机。

搭配

“搭配”是由两个或两个以上的词所组成的语言表示，相当于说某些事情的习惯方式。

猜你喜欢

统计自然语言处理基础（一）

基础认知

语言学的目的是为了能够描述和解释我们周围的语言现象。

语言和认知 是随机现象：把概率作为理解语言的一种科学方法的最基本论点认为，人类的认知是随机的，因此语言也是随机的，因为它是认知的一个完整部分。

数学基础

语料库—计算机

统计自然语言处理方法不仅需要大量的空间来存储语料，而且经常需要从语料库中收集大量的统计信息，所以要求计算机有比较快的存取速度。这就需要一台硬盘足够大，内存足够多的计算机。

搭配

“搭配”是由两个或两个以上的词所组成的语言表示，相当于说某些事情的习惯方式。

猜你喜欢

语言和认知是随机现象：把概率作为理解语言的一种科学方法的最基本论点认为，人类的认知是随机的，因此语言也是随机的，因为它是认知的一个完整部分。