相似度算法原理

  • 欧几里得距离(Eucledian Distance)或称 欧氏距离
  • 余弦相似度 (Cosine Similarity)
  • 杰卡德相似系数(Jaccard Similarity coefficient)
  • 皮尔逊相关系数(Pearson correlation)

1、欧几里得距离(欧氏距离(也称欧几里得度量)指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离))

dist(A,B)=\sqrt{\sum_{i=1}^{n } {(Ai-Bi)^{2}}}

2、曼哈顿距离(在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和)

dist(A,B)=\sum_{i=1}^{n}\left | Ai-Bi \right |

使用:在数据完整(无维度数据缺失)的情况下, 需要将空间划分成网格, 然后以网格为单位来进行度量, 允许4个方向

3、余弦相似度(余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度)

cos(\theta) =A\cdot B/ \left | A\left | \right |B \right |

使用:衡量两个向量方向的差异

4、皮尔森相关系数(用于比较有限样本集之间的相似性与差异性)

杰卡德相似系数计算公式

J(A,B)=\left | A\bigcap B \right |/\left | A\bigcup B \right |

杰卡德距离计算公式

J\delta (A,B)=1-J(A,B)=\left | A\cap B \right |-\left | B\cap A \right |/\left | A\cup B \right |

使用:比较文本相似度,用于文本查重与去重;

           计算对象间距离,用于数据聚类或衡量两个集合的区分度等。

猜你喜欢

转载自blog.csdn.net/chehec2010/article/details/114631291
今日推荐