1距離式の基本的な特性
2一般的な距離の式
2.1ユークリッド距離:
ユークリッド距離は、直感的に理解するのに最も簡単な距離測定方法です。小学校、中学校、高校で触れる2点間の空間距離は、一般的にユークリッド距離を指します。
例えば:
X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d = 1.4142 2.8284 4.2426 1.4142 2.8284 1.4142
2.2 マンハッタン距離:
マンハッタンのある交差点から別の交差点まで運転する場合、運転距離は明らかに2点間の直線距離ではありません。この実際の走行距離が「マンハッタン距離」です。マンハッタンの距離は「街区距離」(街区距離)とも呼ばれます。
例えば:
X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d = 2 4 6 2 4 2
2.3チェビシェフ距離:
チェスでは、王はまっすぐ、水平、または斜めに歩くことができるので、王は一歩踏み出すことによって、隣接する8つの正方形のいずれかに移動できます。王はグリッド(x1、y1)からグリッド(x2、y2)まで何歩歩く必要がありますか?この距離はチェビシェフ距離と呼ばれます。
例えば:
X=[[1,1],[2,2],[3,3],[4,4]];
经计算得:
d = 1 2 3 1 2 1
2.4ミンコフスキー距離:
最小距離は一種の距離ではなく、一連の距離の定義であり、複数の距離測定式の一般的な表現です。
2つのn次元変数a(x11、x12、...、x1n)とb(x21、x22、...、x2n)の間のミンコフスキー距離は次のように定義されます。
ここで、pは可変パラメーターです。
-
p = 1の場合、それはマンハッタン距離です。
-
p = 2の場合、それはユークリッド距離です。
-
p→∞の場合、チェビシェフ距離です。
pの違いによると、最小の距離は特定のタイプ/種類の距離を表すことができます。
概要:
マンハッタン距離、ユークリッド距離、チェビシェフ距離を含む1分の距離には、明らかな欠点があります。
たとえば、2次元サンプル(高さ[単位:cm]、重量[単位:kg])には、a(180,50)、b(190,50)、c(180,60)の3つのサンプルがあります。
aとbの間の最小距離(マンハッタン距離、ユークリッド距離、またはチェビシェフ距離のいずれか)は、aとcの間の最小距離に等しくなります。しかし、実際には、10cmの高さは10kgの重量と同じではありません。
2最小距離のデメリット:
(1)個々のコンポーネントの寸法(スケール)、つまり「単位」は同じように見えます。
(2)各コンポーネントの分布(望ましい、分散など)が異なる可能性があることを考慮していません。
3「連続属性」と「離散属性」間の距離計算
多くの場合、属性を「連続属性」(連続属性)と「離散属性」(カテゴリ属性)に分割します。前者はドメイン内で無限の数の可能な値を持ち、後者は有限数の値を持ちます。ドメイン。
- 属性値の間に順序関係がある場合、それらは連続値に変換できます。たとえば、高さ属性「高」、「中」、「短」は{1、0.5、0}に変換できます。
- ミンコフスキー距離は、順序付けられた属性に使用できます。
- 属性値の間に順序関係がない場合、通常はベクトルの形式に変換されます。たとえば、性別属性「男性」と「女性」は{(1,0)、(0,1)に変換できます。 )}。