背景:
我们可以看到蓝天和白云几乎是同时出现的,那么他们的关联就比较强,这样我们就认为蓝天是白云的扩展词,这样在做文本计算的时候可以强关联替换,类似同义词一样,来弥补文本挖掘的不足。
技术背景:
基于Hadoop的MR
分析:
1.基于常用文本进行切词从而组建扩展词;
2.基于tf计算的时候要考虑词频的影响;
3.扩展词库是否需要考虑支持度和置信度;
4.约定每个文本切词完成之后为一个事务;
方案:
1.基于文本切词计算tf;
2.计算任意两词之间的距离,计算公式为:d(w1,w2)=|tf1-tf2|;
3.扫描所有的事务,累加距离;
4.只考虑支持度和距离阀值,低于支持度阀值的忽略,高于距离阀值的忽略;
5.基于w1,统计其扩展词库,并基于距离排序;