【自然语言处理】规则与统计相结合的词义消岐方法研究学习笔记

2：提取敏捷规则知识库
敏捷规则知识库是指出于节约时间和空间的考虑，在提取肯定性区别时不用全部提取，只需提取必要的属性字段，舍去不必要的资源消耗。
提取敏捷规则知识库步骤：
a：提取两词典融合后的结果中的字段
b：按照肯定性区别提取敏捷规则知识库
c：将提取出来来的敏捷规则知识库按照一定的格式写入到xml表中

2：统计消岐方法

a：特征提取

特征提取主要从三个方面提取

特征的类型（词性，词形，词性+词形）
窗口大小（语句在内当前左右n个词或当前词所在的整个句子）
位置特征信息，即所选特征与当前多一次的距离。

在这里插入图片描述
通过组合以上所述的3个方面可以设计多种特征模板，本文是进行多义词上下文特征的获取并使用这些特征来计算模型参数。如下所示是对人明日报标注语料的其中的一个句子分析：

特征筛选算法

求取与词 $W_{sj}$ 的同现实词集合 $A_{sj}$
求取 $A_{sj}(j=1...q)$ 的课区分性特征，即把q个不同义项中的相同特种删除。
统计义项中每个特征出现的频次
计算多义词每个义项与各个特征的相互信息或共现概率
设置两个阈值，一个是特征出现在多义词 $W_{sj}$ 的上下文中的总次数的阈值 $r1$ ，一个是互信息的选择特征的阈值 $r2$ .
将满足条件的多义词的每个义项的特征取出。
针对那些义项分布不均的多义词，主要针对分布比较少的义项编制规则

b：统计模型

1：贝叶斯词义消岐模型的建立

对于消岐模型的建立，作者是采用的贝叶斯分类算法作为参考依据，搭建起来的消岐模型。
对于如何进行的模型建立？作者是如何实现？具体的博主就不在这里累赘了，博主也是在学习，想了解具体的可以下载期刊去看。
注：贝叶斯分类算法可参考：https://blog.csdn.net/Jiajikang_jjk/article/details/83307348

2：向量空间词义消岐模型的建立

3：最大熵模型

关于最大熵模型可以参考 https://blog.csdn.net/Jiajikang_jjk/article/details/83312317

以上三种处理模型的方式是统计模型使用到的

五、规则与统计相结合的消岐方法

词典与语料库相融合建立统计模型
稀疏数据处理
隐性信息
以上三种是方式是进行规则与统计相结合的消岐方法所使用到的方法。

六、规则与统计相结合的消岐系统的实现

七、结果测评

完整度测评
准确率测评

八、简单说明

以上整个流程就是作者写这篇期刊的一个整体流程(思路)，博主为了后面回顾，整合的工作需求，就进行一个简单的梳理记录。

【自然语言处理】规则与统计相结合的词义消岐方法研究学习笔记

文章目录

规则与统计相结合的词义消岐方法研究学习笔记

说明

一，流程图

二、 语料

三、 多知识源的融合

四、分析规格和统计各自消岐的方法

1：规格消岐方法