「機械学習 100 日」完全な目次:目次
100 日間の機械学習、今日の話は次のとおりです: 線形サポート ベクター マシン - 数式の導出!
まず、このような問題を考えてみますが、二次元平面上で、正のクラスと負のクラスを分ける直線を見つける必要があります。
3 本の直線 A、B、C が見つかりました。3 行すべてがすべてのトレーニング サンプルを正しく分類しています。しかし、どの直線が最適でしょうか? 直感的に、直線 C を選択します。この直線は正しく分類されているだけでなく、陽性サンプルと陰性サンプルから遠く離れているためです。この利点は、フォールト トレランスと分類ラインの堅牢性が向上することです。未知のテスト データを確実に正しく分類したい場合は、分類線と陽性クラスと陰性クラスの点の間に一定の距離があることが最善であるためです。これにより、各サンプル ポイントの周囲の円形エリアが「安全」になります。円形の領域が大きいほど、測定データの誤差に対する分類線の許容度が高く、より「安全」になります。
したがって、分類線に最も近い点と分類線との間の距離が大きいほど、分類モデルは優れています。これはサポート ベクター マシン アルゴリズムの中核となる考え方です。
まず、分類線に最も近い点と分類線との距離を最大距離として定義し、マージンで表します。
私たちの目標はマージンを最大化することです。満たさなければならない条件は、各トレーニング サンプルが正しく分類されている必要があることです。つまり、次の不等式が満たされます。