扩展词库构建设计方案

背景:

我们可以看到蓝天和白云几乎是同时出现的,那么他们的关联就比较强,这样我们就认为蓝天是白云的扩展词,这样在做文本计算的时候可以强关联替换,类似同义词一样,来弥补文本挖掘的不足。

技术背景:

基于Hadoop的MR

分析:

1.基于常用文本进行切词从而组建扩展词;

2.基于tf计算的时候要考虑词频的影响;

3.扩展词库是否需要考虑支持度和置信度;

4.约定每个文本切词完成之后为一个事务;

方案:

1.基于文本切词计算tf;

2.计算任意两词之间的距离,计算公式为:d(w1,w2)=|tf1-tf2|;

3.扫描所有的事务,累加距离;

4.只考虑支持度和距离阀值,低于支持度阀值的忽略,高于距离阀值的忽略;

5.基于w1,统计其扩展词库,并基于距离排序;

猜你喜欢

转载自snv.iteye.com/blog/1901450