基于统计的“的”、“地”、“得”填空

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/baiziyuandyufei/article/details/50733399

本文实现在空白处自动填入“的”、“地”、“得”
语料库为98年人民日报语料
用待填词前后的词性组合作为特征可分为三大类
 类I 通过词性组合可以明确判断待填词 详见”I.txt“文件
待选字 的 地 得
词性组合个数 626 18 3
 类II 词性组合不可以明确判断待填词,需要在两种或三种待填词中选择一种
待选“的、地” 72个。
待选“的、得” 37个。
待选 “的、地、得” 22个。
该类进一步分为两类:
 (1)词性组合与某一待填词共现次数只有1次或几次 详见”的地_detail.txt”、
”的得_detail.txt”、”的地得_detail.txt”文件
将低频(词性组合,待填词)与词语绑定。
 (2)词性组合与各待填词共现次数基本相同详见 ““,”“,”“文件夹
统计前后缀高频中文词语,用它们进行判定
待选字 的地 的得 的地得
词性组合个数 9 4 4
其他无法判定的,只能一个个地绑定

猜你喜欢

转载自blog.csdn.net/baiziyuandyufei/article/details/50733399