【機械学習コア概要】KNN(K最近傍アルゴリズム)とは

KNN(K最近傍アルゴリズム)とは

名前に NN とありますが、KNN はニューラル ネットワークの一種ではなく、正式名称はK-Nearest-Neighbors : K 近傍アルゴリズムで、機械学習でよく使用される分類アルゴリズムです。

画像の説明を追加してください

羽の鳥が群がります。KNN の基本的な考え方は非常にシンプルで、新しいデータのカテゴリを判断するには、その近傍が誰であるかによって決まります。

私たちのタスクが果物を分類することであるとします。新しい果物が梨であるかリンゴであるかはわかりませんが、その大きさと色を観察することによって座標系内の位置を見つけ、決定されたリンゴと梨を見ることができます。 . 近くにリンゴがたくさんあれば、それはリンゴだと思いますが、そうでなければ、梨だと思います。

画像の説明を追加してください

KNN のK はK個の近傍を指し、K=3 は 3 つの最も近いサンプルを通じて新しいデータのカテゴリを判断することを意味します。

画像の説明を追加してください

サイズと色はデータの特性であり、リンゴと梨はデータのラベルです。距離を計算するときは、2 点間の直線距離 (ユークリッド距離) または座標軸の距離の絶対値の合計 (マンハッタン距離) を使用できます。

KNN では K の値が非常に重要で、K の値が小さすぎると個別のケースの影響を受けやすく、K の値が大きすぎると遠く離れた特殊なデータの影響を受けやすくなります。K の値は問題自体とデータセットのサイズによって決まり、多くの場合、試行錯誤に依存します。

KNN アルゴリズムでは何ができるのでしょうか?

  • 花びらの長さ、幅などの特徴から植物のカテゴリーを判定
  • テキストを単語に加工したり、単語の出現頻度をカウントしたりした後、記事のタイプを決定します。
  • E コマースおよびビデオ サイトは、あなたと似たユーザーを見つけて、そのユーザーの選択に基づいて、あなたが興味を持つ可能性のある製品やコンテンツを推奨します。

シンプルで使いやすい KNN にも欠点があり、新しいサンプルとすべてのサンプルの間の距離を計算し、近いものから遠いものの順に並べ替え、K 値に基づいて分類を決定するというプロセスを経ます。 , データが増えるほど、KNN は計算量が増えるほど効率が低下し、より大きなデータセットに適用することが困難になります。

画像の説明を追加してください

おすすめ

転載: blog.csdn.net/RuanJian_GC/article/details/131544209