文章目录
规则与统计相结合的词义消岐方法研究学习笔记
说明
凡是对于博主的学习笔记,都是按照博主的学习思路进行整理的,以作为后期不定时回顾和理解。那就正式开始博主的第一篇自然语言处理小分支的学习笔记吧。
一,流程图
二话不说,先抛出总的流程图,再进行对着流程图分析作者写作思路,实现的一个过程。
二、 语料
《现代汉语语法信息词典》
《现代汉语语义词典》
同形标注的人明日报语料
三、 多知识源的融合
这里就是对三种语料中存在的歧义词进行在数据库中一个融合,具体融合的过程就如同作者给出如下图所示的方法。
四、分析规格和统计各自消岐的方法
1:规格消岐方法
1:肯定性区别
肯定性区别指的是《现代汉语语法信息词典》和《现代汉语语义词典》中,对于每个歧义词的不同义项,若干存在一个义项的属性值不同于其他义项的属性值,这个属性字段就可以区分该歧义词的不同义项
2:提取敏捷规则知识库
敏捷规则知识库是指出于节约时间和空间的考虑,在提取肯定性区别时不用全部提取,只需提取必要的属性字段,舍去不必要的资源消耗。
提取敏捷规则知识库步骤:
a:提取两词典融合后的结果中的字段
b:按照肯定性区别提取敏捷规则知识库
c:将提取出来来的敏捷规则知识库按照一定的格式写入到xml表中
2:统计消岐方法
a:特征提取
特征提取主要从三个方面提取
- 特征的类型(词性,词形,词性+词形)
- 窗口大小(语句在内当前左右n个词或当前词所在的整个句子)
- 位置特征信息,即所选特征与当前多一次的距离。
通过组合以上所述的3个方面可以设计多种特征模板,本文是进行多义词上下文特征的获取并使用这些特征来计算模型参数。如下所示是对人明日报标注语料的其中的一个句子分析:
特征筛选算法
- 求取与词 的同现实词集合
- 求取 的课区分性特征,即把q个不同义项中的相同特种删除。
- 统计义项中每个特征出现的频次
- 计算多义词每个义项与各个特征的相互信息或共现概率
- 设置两个阈值,一个是特征出现在多义词 的上下文中的总次数的阈值 ,一个是互信息的选择特征的阈值 .
- 将满足条件的多义词的每个义项的特征取出。
- 针对那些义项分布不均的多义词,主要针对分布比较少的义项编制规则
b:统计模型
1:贝叶斯词义消岐模型的建立
对于消岐模型的建立,作者是采用的贝叶斯分类算法作为参考依据,搭建起来的消岐模型。
对于如何进行的模型建立?作者是如何实现?具体的博主就不在这里累赘了,博主也是在学习,想了解具体的可以下载期刊去看。
注 :贝叶斯分类算法可参考:https://blog.csdn.net/Jiajikang_jjk/article/details/83307348
2:向量空间词义消岐模型的建立
3:最大熵模型
关于最大熵模型可以参考 https://blog.csdn.net/Jiajikang_jjk/article/details/83312317
以上三种处理模型的方式是统计模型使用到的
五、规则与统计相结合的消岐方法
- 词典与语料库相融合建立统计模型
- 稀疏数据处理
- 隐性信息
以上三种是方式是进行规则与统计相结合的消岐方法所使用到的方法。
六、规则与统计相结合的消岐系统的实现
七、结果测评
- 完整度测评
- 准确率测评
八、简单说明
以上整个流程就是作者写这篇期刊的一个整体流程(思路),博主为了后面回顾,整合的工作需求,就进行一个简单的梳理记录。