ビッグデータ コース K13 - Spark の距離測定と類似性測定

記事著者の電子メール: [email protected] 住所: 広東省恵州市

 ▲ この章のプログラム

⚪ Master Sparkの距離測定と類似性測定;

⚪ マスター スパークのユークリッド距離。

⚪ マスタースパークのマンハッタン距離;

⚪ マスタースパークのチェビシェフ距離;

⚪ Master Spark の最小二乗法。

1. 距離測定と類似性測定

1. コンセプトの紹介

データ分析やデータマイニングのプロセスでは、多くの場合、個人間の差異の大きさを知り、個人の類似性とカテゴリを評価する必要があります。データ間の差異をいかに測定するかが鍵となるが、分類アルゴリズムやクラスタリングアルゴリズムの本質は、何らかの測定(距離測定や類似性測定)に基づいている。

2. 距離測定

距離とは、空間における個人間の距離を測定するために使用され、距離が遠いほど個人間の差が大きくなります。

例: ユークリッド距離。一般的な距離測定方法には次のものがあります。

1.ユークリッド距離

2. ミンコフスキー距離

3.マンハッタン距離

4. チェビシェフ距離

5. マハラノビス距離

3. 類似度測定

1. ベクトル空間のコサイン類似度(Cosine Samelarity)

2.ピアソン相関係数

2. ユークリッド距離

1. ユークリッド距離

2 次元および 3 次元空間におけるユークリッド距離は、2 点間の距離です。

2次元空間におけるユークリッド距離:

 2 次元平面上の 2 点 a(x1,y1) と b(x2,y2) の間のユークリッド距離:

3 次元空間の 2 点 a(x1,y1,z1) と b(x2,y2,z2) の間のユークリッド距離:

2 つの n 次元ベクトル a(x11,x12,…,x1n) と b(x21,x22,…,x2n) 間のユークリッド距離:

ベクトル演算の形式でも表現できます

おすすめ

転載: blog.csdn.net/u013955758/article/details/132438469