林玄天の機械学習テクニックに関するメモ (2)

林玄天の機械学習テクニックノート (1)
林玄天の機械学習テクニックノート (3)

デュアルサポートベクターマシン

P6 2.1
ここに画像の説明を挿入
L1 では線形サポートベクターマシンについて説明し、次に L2 ではデュアルサポートベクターマシンについて説明します。

前のセクションでは、非線形 SVM を見つける方法について説明しました。z 空間に変換する場合、QP 問題を解くには d ^~ + 1 個の変数 (および N 個の定数) が必要です。解くには、d ^~は非常に大きく、場合によっては無限になります。 SVM は d ^~に依存しない:

元の SVM を等価な SVM に変換できます。
ここに画像の説明を挿入
これは二重問題です:

前の正則化に従い、λ を導入し、条件付き問題を無条件問題に変換でき、λ の個体は数値は N

でラグランジュ関数を定義します。関連文献では通常、λ を α と書き

、SVM を正しい式に変換します。st
ここに画像の説明を挿入
の (b,w) が満たされない場合、1-yn(wTzn+b) は整数になります。 max が選択されている場合、最終的に min になるため、無限大に達します。これにより、st を満たさない (b,w) が除外されます。それが満たされる場合、yn(
wTzn+b) は非になります。 -負の数。最大値と >=0 があるため、yn(wTzn+b)=0 ( $\sumであることに注意してください)$ 、a>=0 であるため、各項目が 0 に等しい場合にのみ合計が 0 に等しくなります)、その場合、式は $\frac{1}{2} w^Tw$ 。
このようにして、st を満たさないデータを効果的に排除し、最小の $\frac{1}{2} w^Tw を$ 。 $_$

P7 2.2
の前のセクションでは、SVM をラグランジュの公式に変換しましたが、その公式の下限をどのように見つけるか? 任意の (b,w) について、次のことが当てはまります。
ここに画像の説明を挿入
これは任意の場合に当てはまるため、最大の右辺の式を取ることも依然として当てはまります。

これが解決されると、右辺の式はラグランジュ双対 (双対) 問題になります。問題は、SVM の下限を見つけることです。

ここに画像の説明を挿入
緑の 3 つの条件が満たされているため、(QP 問題に対して) 強い関係があり、直接等式化できます。また、方程式の両側を満たすグループ (b、w、α) が存在することも示しています。 : 今は制限がないので、
ここに画像の説明を挿入
これを解き始めます:

これは min なので、要件:

したがって、この制限を追加して式を簡素化できます:

最後の項目は b*0 であることがわかり、次のようになります:

同様に、min があるため、L に w = 0 の偏導関数を求め、w を固定数にしてから単純化を開始する必要があります。max の後に次の一連の規則があるため、Min は無視できます。式には b と w は含まれておらず、残りは α だけを考慮する必要があります。
ここに画像の説明を挿入
最後に、最適化を満たす 4 つの条件は KKT です。追加: 4 番目の点 (ハリーポッターとヴォルデモートは 1 つ生きていなければなりません)、yn(wTzn+b)=1 (点はちょうど境界線上にあり、これらの α>=0 点は SV です) の場合、式は自然です。は 0, >1 です。2.1 の最後の図によると、2.1 の図の式には min がかかり、αn は 0 しか取れません。したがって、ここでの最終的な式も 0 になります。
ここに画像の説明を挿入
②L(b,w,α) の定義に戻ると、yn と zn=1、そして w= ∑ α nynzn \ であることがわかります。 $sumα_ny_nz_n$ それが出てきました。③sigma の各項目は 0 (KKT の下) でなければならないので = 0 になるからです。 α2(w-3) の問題については、具体的な w、yn、zn の作り方は無視して大丈夫な気がします。つまり、全体が0になるはずです。

P8 2.3
ここに画像の説明を挿入
前のセクションの式を max->min に単純化し、それを 2 乗します。w = ... を加えない条件は、クロスフォーカスが αn にあるためです。次に、これが凸 (凸) QP 問題であることがわかりました。N 個の変数 (αn) があり、N+1 条件 (制約) (N αn はゼロより大きくなければなりません、1 ∑ n = 1 N yn α n = 0) $\ sum_{n=1}^N y_nα_n=0$ 、合計 N+1)、QP の設定を開始します。
ここに画像の説明を挿入
注: 通常、QP を入力するときは、「=」を 2 つの不等式に分割する必要はありません。直接記述してから範囲境界を直接記述します。

ただし、q は密な密な行列、つまり、その中の多くの値が非ゼロではなく、計算量と保存量が大きいため、SVM 用に特別に設計された方法が使用されることに注意してください。
ここに画像の説明を挿入
KKT の 4 つの条件を通じて、w と b を導入できます。特に、 $α_n > 0$ , $1-y_n*(w^Tz_n+b) = 1$ 、および =1 は、その点が SVM のファット境界 (ファット境界) 上にあることを意味します。その理由は次のとおりです。。超平面をもう一度見る必要があると推定されています。
ここに画像の説明を挿入

P9 2.4
ここに画像の説明を挿入
前のセクションで α > 0 がわかっている場合、その点は境界上にあります。ただし、分類線上の点は必ずしもサポートベクトルであるとは限りません (α = 0 の可能性もあります)。そのため、α>0 の点をサポートベクトル (SV) と呼び、これらの SV (つまり、α>0) のみをサポートベクトル (SV) と呼びます。範囲が少し絞られるかもしれません。
ここに画像の説明を挿入
したがって、w と b はどちらも SV でなければ、つまり α = 0 の場合には意味がありませんので、SV のみで計算することができます。

SVM と PLA の式は非常に似ており、両方とも $y_nz_nです。$ 他の w の線形結合も同様であり、w がデータで表されていると言えます。SVM の w は SV のみで表され、PLA はエラーが発生したポイントで表されます。哲学的には、私たちは「w」を表現するために何を使うべきかを知る必要があります。

ここに画像の説明を挿入
SVM の 2 つの表現 (プライマルとデュアル) を比較すると、ハードマージンは、ooxx の厳密な分類では間違いが発生しないことを意味します。通常はデュアル SVM が使用されます。

ここに画像の説明を挿入
最後に：dual svm は N に関係するだけだと言われていますが、実際には q の中に d ^{~が隠されています。次に、この d}^~を回避する方法を説明します。

最終的なまとめ:
ここに画像の説明を挿入

林玄天の機械学習テクニックに関するメモ (2)

デュアルサポートベクターマシン

おすすめ