利用混合马尔可夫模型对用户搜索行为进行聚类

最近一直做用户使用搜索引擎行为模式聚类的工作,开始尝试用K-means,效果非常不好,用户Session中的动作之间有较强

的关联,这种基于距离的聚类无法体现这种关系。继而,转向基于模型的聚类方法,而马尔可夫模型及隐马模型是对这种时间

序列建模的很好工具,因此尝试了下混合马尔可夫模型:认为每一个Session序列是有一个马尔可夫模型产生的,而模型的选

择又遵循一定的概率分布;并用EM算法求解模型的参数。

该模型已在Hadoop上实现,跑了一天的数据,大于1千多万的Session序列,初步看了看效果,还是蛮不错滴。

猜你喜欢

转载自run-xiao.iteye.com/blog/716132