常用文本相似度计算方法

在此记录两种常见的文本相似度计算方式:基于VSM论文和基于LDA论文

这两种方式的不同在于文本表示的不同,LDA与VSM相比,增加了概率的信息,更侧重对语义的挖掘。

在进行文本建模之后,计算相似度的常用距离有:

余弦距离,欧式距离,曼哈顿距离,切比雪夫距离,simhash+汉明距离...详见


猜你喜欢

转载自blog.csdn.net/sinat_36972314/article/details/79858371