機械学習で一般的に使用される距離

1距離式の基本的な特性

ユークリッド距離は、直感的に理解するのに最も簡単な距離測定方法です。小学校、中学校、高校で触れる2点間の空間距離は、一般的にユークリッド距離を指します。

例えば：

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d = 1.4142    2.8284    4.2426    1.4142    2.8284    1.4142

マンハッタンのある交差点から別の交差点まで運転する場合、運転距離は明らかに2点間の直線距離ではありません。この実際の走行距離が「マンハッタン距離」です。マンハッタンの距離は「街区距離」（街区距離）とも呼ばれます。

例えば：

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d =   2     4     6     2     4     2

チェスでは、王はまっすぐ、水平、または斜めに歩くことができるので、王は一歩踏み出すことによって、隣接する8つの正方形のいずれかに移動できます。王はグリッド（x1、y1）からグリッド（x2、y2）まで何歩歩く必要がありますか？この距離はチェビシェフ距離と呼ばれます。

例えば：

X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d =   1     2     3     1     2     1

最小距離は一種の距離ではなく、一連の距離の定義であり、複数の距離測定式の一般的な表現です。

2つのn次元変数a（x11、x12、...、x1n）とb（x21、x22、...、x2n）の間のミンコフスキー距離は次のように定義されます。

画像-20190225182628694

ここで、pは可変パラメーターです。

pの違いによると、最小の距離は特定のタイプ/種類の距離を表すことができます。

概要：

マンハッタン距離、ユークリッド距離、チェビシェフ距離を含む1分の距離には、明らかな欠点があります。

たとえば、2次元サンプル（高さ[単位：cm]、重量[単位：kg]）には、a（180,50）、b（190,50）、c（180,60）の3つのサンプルがあります。

aとbの間の最小距離（マンハッタン距離、ユークリッド距離、またはチェビシェフ距離のいずれか）は、aとcの間の最小距離に等しくなります。しかし、実際には、10cmの高さは10kgの重量と同じではありません。

2最小距離のデメリット：

（1）個々のコンポーネントの寸法（スケール）、つまり「単位」は同じように見えます。

（2）各コンポーネントの分布（望ましい、分散など）が異なる可能性があることを考慮していません。

多くの場合、属性を「連続属性」（連続属性）と「離散属性」（カテゴリ属性）に分割します。前者はドメイン内で無限の数の可能な値を持ち、後者は有限数の値を持ちます。ドメイン。

属性値の間に順序関係がある場合、それらは連続値に変換できます。たとえば、高さ属性「高」、「中」、「短」は{1、0.5、0}に変換できます。
- ミンコフスキー距離は、順序付けられた属性に使用できます。
属性値の間に順序関係がない場合、通常はベクトルの形式に変換されます。たとえば、性別属性「男性」と「女性」は{（1,0）、（0,1）に変換できます。）}。