概要 :K-NearestNeighbor(K-NN)アルゴリズムは、1968年にCover and Hartによって提案されたK-NNアルゴリズムとも呼ばれる監視対象の機械学習アルゴリズムであり、分類の問題と回帰の問題を解決するために使用できます。 。
1.k-nearestneighborアルゴリズムを学ぶ理由
KNNアルゴリズムとも呼ばれるk-nearestneighborアルゴリズムは、開始するのに非常に適したアルゴリズムです。
次の特徴があります。
●非常にシンプルな考え方
●応用数学の知識がほとんどない(ほぼゼロ)
●開発者にとって、多くは数学が苦手であり、KNNアルゴリズムは数学の専門知識をほとんど必要としません。
●良い効果
○アルゴリズムはシンプルですが、驚くほど効果が良いです
○欠点もありますが、これについては後で説明します
●機械学習アルゴリズムを使用する過程で多くの詳細を説明できます
○KNNアルゴリズムを使用して、機械学習アルゴリズムを使用するプロセスを実行し、機械学習アルゴリズムを使用するプロセスの詳細を調査します。
●機械学習アプリケーションのプロセスのより完全な説明
○従来のアルゴリズムの違いを比較する
○パンダとナンピーを使用してKNNアルゴリズムを学習する
2.K最近傍アルゴリズムとは
上の図のデータポイントは、フィーチャスペースに分散されています。通常、2次元スペースを使用してデモンストレーションを行います。
横軸は腫瘍の大きさを表し、縦軸は発見の時間を表します。
悪性腫瘍は青で、良性腫瘍は赤で示されています。
この時に新しい患者が到着しました
上の写真の緑色の点で、新しい患者(つまり緑色の点)が良性腫瘍か悪性腫瘍かをどのように判断しますか?
k-nearestneighborアルゴリズムの方法は次のとおりです。
値k = 3を取ります(ここでのk値は後で紹介します。これで、機械学習のユーザーが経験に基づいて最適な経験値を達成したことを誰もが理解できます)。
最も近いk個の隣人によって緑の点を判断するための基礎は、すべての点の中から緑の点に最も近い3つの点を見つけて、最も近い点のカテゴリに投票することです。最も近い3つの点はすべて青であることがわかりました。対応する患者も青色である必要があります。これは悪性腫瘍です。
エッセンス:2つのサンプルが十分に類似している場合、2つのサンプルは同じカテゴリに属する可能性が高くなります。
ただし、1つだけを見ると正確でない場合があるため、K個のサンプルを見る必要があります。K個のサンプルのほとんどが同じカテゴリに属する場合、予測されるサンプルは対応するカテゴリに属する可能性があります。ここでの類似性は例によって測定されます。
ここで別の例を挙げます
●上図の緑点に最も近い点は、赤が2点、青が1点含まれています。ここで、赤点と青点の比率は2:1で、緑点が赤になる可能性が最も高く、最終的な判定結果は次のようになります。良性腫瘍。
●上記の調査結果により、K最近傍アルゴリズムは監視学習における分類問題の解決に優れています。