機械学習で一般的に使用される距離

 

1距離式の基本的な特性

2一般的な距離の式

2.1ユークリッド距離:

ユークリッド距離は、直感的に理解するのに最も簡単な距離測定方法です。小学校、中学校、高校で触れる2点間の空間距離は、一般的にユークリッド距離を指します。

例えば:

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d = 1.4142    2.8284    4.2426    1.4142    2.8284    1.4142

 

2.2 マンハッタン距離:

マンハッタンのある交差点から別の交差点まで運転する場合、運転距離は明らかに2点間の直線距離ではありません。この実際の走行距離が「マンハッタン距離」です。マンハッタンの距離は「街区距離」(街区距離)とも呼ばれます。

例えば:

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d =   2     4     6     2     4     2

2.3チェビシェフ距離:

チェスでは、王はまっすぐ、水平、または斜めに歩くことができるので、王は一歩踏み出すことによって、隣接する8つの正方形のいずれかに移動できます。王はグリッド(x1、y1)からグリッド(x2、y2)まで何歩歩く必要がありますか?この距離はチェビシェフ距離と呼ばれます。

例えば:

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d =   1     2     3     1     2     1

2.4ミンコフスキー距離:

最小距離は一種の距離ではなく、一連の距離の定義であり、複数の距離測定式の一般的な表現です。

2つのn次元変数a(x11、x12、...、x1n)とb(x21、x22、...、x2n)の間のミンコフスキー距離は次のように定義されます。

画像-20190225182628694

ここで、pは可変パラメーターです。

  • p = 1の場合、それはマンハッタン距離です。

  • p = 2の場合、それはユークリッド距離です。

  • p→∞の場合、チェビシェフ距離です。

pの違いによると、最小の距離は特定のタイプ/種類の距離を表すことができます。

概要:

マンハッタン距離、ユークリッド距離、チェビシェフ距離を含む1分の距離には、明らかな欠点があります。

たとえば、2次元サンプル(高さ[単位:cm]、重量[単位:kg])には、a(180,50)、b(190,50)、c(180,60)の3つのサンプルがあります。

aとbの間の最小距離(マンハッタン距離、ユークリッド距離、またはチェビシェフ距離のいずれか)は、aとcの間の最小距離に等しくなります。しかし、実際には、10cmの高さは10kgの重量と同じではありません。

2最小距離のデメリット:

(1)個々のコンポーネントの寸法(スケール)、つまり「単位」は同じように見えます。

(2)各コンポーネントの分布(望ましい、分散など)が異なる可能性があることを考慮していません。

 

3「連続属性」と「離散属性」間の距離計算

多くの場合、属性を「連続属性」(連続属性)と「離散属性」(カテゴリ属性)に分割します。前者はドメイン内で無限の数の可能な値を持ち、後者は有限数の値を持ちます。ドメイン。

  • 属性値の間に順序関係がある場合、それらは連続値に変換できます。たとえば、高さ属性「高」、「中」、「短」は{1、0.5、0}に変換できます。
    • ミンコフスキー距離は、順序付けられた属性に使用できます。
  • 属性値の間に順序関係がない場合、通常はベクトルの形式に変換されます。たとえば、性別属性「男性」と「女性」は{(1,0)、(0,1)に変換できます。 )}。

 

おすすめ

転載: blog.csdn.net/qq_39197555/article/details/114992655