機械学習ノート 08---k 最近隣学習

    k 近傍 (略して kNN) 学習は、一般的に使用される教師あり学習方法であり、その動作メカニズムは非常に単純です。与えられたテスト サンプルで、特定の距離メトリックに基づいてトレーニング セット内でそれに最も近い k 個のトレーニング サンプルを見つけます。次に、これらの k 個の「近傍」の情報に基づいて予測が行われます。通常、「投票法」は分類タスクで使用でき、つまり k 個のサンプルに最も多く出現するクラス ラベルが予測結果として選択されます。「平均法」は回帰タスクで使用でき、つまり、k 個のサンプルの実数値出力がマークされます。 の平均値が予測結果として使用されます。距離に基づいて加重平均または加重投票を実行することもでき、サンプルの重みに近いほど重みが大きくなります。

    他の学習方法と比較すると、k 最近傍学習には明らかな欠点があります。それは、明示的なトレーニング プロセスがないようです。実際、これは「遅延学習」のよく知られた代表例です。このタイプの学習テクノロジは、トレーニング フェーズ中にのみサンプルを保存し、トレーニング時間のオーバーヘッドはなく、テスト サンプルを受信した後にそれらを処理します。トレーニング段階でサンプルを処理することは、「熱心な学習」と呼ばれます。

    以下は、k 最近傍分類器の概略図です。明らかに、k は重要なパラメーターです。k の値が異なると、分類結果は大きく異なります。一方、異なる距離計算方法が使用される場合、見つかった「最近傍」が大きく異なる可能性があり、それが分類結果にも大きな違いをもたらすことになります。

  (k 最近傍分類器の概略図。円は等距離の線を示します。サンプルは、k=1 または k=5 の場合は「-」の場合、k=3 の場合は「+」の場合として識別されます。) (PS) Gu There朱に近いものは赤、墨に近いものは黒という格言があります。

さしあたり、距離の計算が「適切」である、つまり k 個の最近傍を適切に見つけることができると仮定して、二項分類問題。

    テスト サンプル x が与えられ、その最近傍サンプルが z の場合、最近傍分類器がエラーを起こす確率は、x と z のクラス ラベルが異なる確率になります。つまり、次のようになります。

     サンプルが独立しており、同一に分布していると仮定すると、任意の x と任意の小さな整数 σ について、トレーニング サンプルは常に x の周りの距離 σ 以内に見つかります。つまり、任意のテスト サンプルについて、トレーニング サンプル z は常に次のとおりです。任意の至近距離で発見されました。c*=argmaxP(c|x) がベイズ最適分類器の結果を表すとすると、次のようになります。

 驚くべき結論は、最近傍分類器は単純ですが、その汎化誤り率はベイジアン最適分類器の誤り率の 2 倍以下であるということです。

周志華氏の「機械学習」を参照

おすすめ

転載: blog.csdn.net/m0_64007201/article/details/127591334