【機械学習】サポートベクターマシンSVM

サポートベクターマシンは、線形計画法、凸最適化、行列解析など難しい問題が多く、今回で3回目ですが、今後4回目、5回目もありそうです。基本的にはサポートベクターマシンとは切り離されていますが、そこに含まれるアイデアは何度も考えて考える価値があり、このようなことを勉強すると、学問の道における数学的能力の重要性も思い出します。

(この記事には多くの質問があるかもしれませんが、修正していただければ幸いです。)

1. 数学の予備知識

1.1. 点から面までの距離

ここでの議論は 2 次元だけでなく、高次元でもあります。

まず、平面の単位法線ベクトルがω \omegaであると仮定して、平面がどのように表現されるかを考えます。ωの場合、この平面上の点は法線ベクトルと原点から超平面までの距離 h の内積を満たすはずです (平面上の点と原点で結ばれたベクトルは法線に沿った方向に分割できるため)ベクトルと法線ベクトルに垂直な方向)、したがって、次のように表すことができます:
ω x = h \omega x = hω ×=h
は通常、次のように表されます:
ω x + b = 0 \omega x + b = 0ω ×+b=0
の場合は任意の点xi x_iバツ私はこの平面までの距離は次のとおりです。
d = ω xi − h = ω xi + bd = \omega x_i-h = \omega x_i+bd=ω ×私はh=ω ×私は+b
もちろん法線ベクトルは単位法線ベクトルであると仮定しますが、単位法線ベクトルでない場合の距離は
d = ω xi + b ∣ ∣ ω ∣ ∣ d = \frac{\omega x_i+b}{|| \omega||}d=∣∣ ω ∣∣ω ×私は+b
上記の距離は正または負の場合があり、プラスまたはマイナスの符号はそれが超平面のどちら側にあるかを示すことに注意してください。

1.2. ラグランジュ乗数法

ラグランジュ乗数法は微積分 2 で学習した知識であり、制約の下での極値問題を解くために使用されます。

まず、次の最適化問題など、等式制約のある極値問題の解法を見てみましょう:
min ⁡ wf ( w ) st hi ( w ) = 0 , i = 1 , … , l \begin{array}{c} \min _{w} f(w) \\ \text { st } h_{i}(w)=0, \quad i=1, \ldots, l \end{array}f ( w ) st  h私は( w )=0 =1
目的関数は f(w) であり、次の等式制約があります。通常、解決策はラグランジュ演算子を導入することです。ここではβ \betaを使用します。βは演算子を表すために使用され、ラグランジュの公式は
L ( w , β ) = f ( w ) + ∑ i = 1 l β ihi ( w ) \mathcal{L}(w, \beta)=f(w )+\sum_{i=1}^{l} \beta_{i} h_{i}(w)L ( w ,b )=f ( w )+i = 1b私はh私は( w )
次に、 w を解くには偏微分だけが必要です。

ここに追加する機会を待ちます。

2. 核となるアイデア:

2.1. 思想

超平面に最も近い点が超平面からできるだけ遠くなるように、分類用の超平面を見つけます

このアイデアは非常に単純に見えますが、実際の運用ではさまざまな最適化手法やテクニックが使用され、非常に困難です。

3. ハードスペースの問題:

3.1. 最適化の目的と基本的な変形

さて、データを平面の左側と右側に分割する方法を見つけてみましょう。データ値はxi x_iです。バツ私はyi y_iとラベル付けされていますy私は、データと平面の間の距離はdi d_iです。d私は(ここでも、d は正または負の値になります)。超平面 d>0 上の点は y=1 を満たす必要があり、d<0 上の点は y=-1 を満たす必要があると考えます。次にd ∗ yd*ydy は距離の絶対値を表します。

超平面をw T x + b = 0 w^Tx+b=0 とします。wT ×+b=0の場合、私たちの中心となるアイデア (超平面に最も近い点超平面から遠ざける) は次のように表現できます。

max ⁡ min ⁡ i γ i = yi ∗ ( w T xi + b ) ∥ w ∥ 2 \max \min_{i} \gamma_i=\frac{y_i *\left(w^{T} x_i+b\right) }{\|w\|_{2}}最大c私は=_2y私は( wT ×私は+b )
問題は次のように説明できます:
max ⁡ min ⁡ γ i = yi ∗ ( wxi + b ) ∥ w ∥ 2 st yi [ ( xi ⋅ w ) + b ] ≥ dmin 、 i = 1 , 2 , ⋯ , l for ( y 1 , x 1 ) , ⋯ , ( yl , xl ) , y ∈ { − 1 , 1 } \begin{array}{l} \max \min \gamma_i=\frac{y_i *\left(w x_i+b\right )}{\|w\|_{2}}\\ \text { st } \quad y_{i}\left[\left(\mathbf{x}_{i} \cdot \mathbf{w}\right )+b\right] \geq d_{min}, \quad i=1,2, \cdots, l \\ \text { for } \quad\left(y_{1}, \mathbf{x}_{1 }\right), \cdots,\left(y_{l}, \mathbf{x}_{l}\right), y \in\{-1,1\} \\ \end{array}最大c私は=_2y私は( w x私は+ b ) セント y私は[ ( x私は+b ]d=1 2  のために ( y1バツ1( yバツy{ 1 1 }

d m i n d_{min} d片側に分けるとw'w'になりますw b」b」b'、次のように再書き込みできます:
max ⁡ min ⁡ γ i = yi ∗ ( w ' xi + b ' ) ∥ w ' ∥ 2 st yi [ ( xi ⋅ w ' ) + b ' ] ≥ 1 , i = 1 , 2 , ⋯ , l for ( y 1 , x 1 ) , ⋯ , ( yl , xl ) , y ∈ { − 1 , 1 } \begin{array}{l} \max \min \gamma_i=\frac{y_i *\left(w' x_i+b'\right)}{\|w'\|_{2}}\\ \text { st } \quad y_{i}\left[\left(\mathbf{x} _{i} \cdot \mathbf{w'}\right)+b'\right] \geq 1, \quad i=1,2, \cdots, l \\ \text { for } \quad\left(y_ {1}, \mathbf{x}_{1}\right), \cdots,\left(y_{l}, \mathbf{x}_{l}\right), y \in\{-1,1 \} \\ \end{配列}最大c私は=∥w _2y私は( w× _私は+ b _ セント y私は[ ( x私はw _+b] _1 =1 2  のために ( y1バツ1( yバツy{ 1 1 }
簡単な考察が想像できます。境界値には等式制約となる不等式が存在する必要があり、min は i であり、γ \gammaであるためです。γの分母は無関係であるため、分子の最小値は方程式によって 1 に制約され、問題の目的は分母を最小化することになります。

max ⁡ 1 ∥ w ′ ∥ 2 st yi [ ( xi ⋅ w ′ ) + b ′ ] ≥ 1 、 i = 1 , 2 , ⋯ , l for ( y 1 , x 1 ) , ⋯ , ( yl , xl ) 、 y ∈ { − 1 , 1 } \begin{array}{c} \max \frac{1}{\|w'\|_{2}}\\ \text { st } \quad y_{i}\left [\left(\mathbf{x}_{i} \cdot \mathbf{w'}\right)+b'\right] \geq 1, \quad i=1,2, \cdots, l \\ \text { の場合 } \quad\left(y_{1}, \mathbf{x}_{1}\right), \cdots,\left(y_{l}, \mathbf{x}_{l}\right), y \in\{-1,1\} \\ \end{配列}最大∥w _21 セント y私は[ ( x私はw _+b] _1 =1 2  のために ( y1バツ1( yバツy{ 1 1 }

通常次のように書きます:
min ⁡ Φ ( w ) = 1 2 ( w ⋅ w ) wrt w st yi [ ( xi ⋅ w ) + b ] ≥ 1 , i = 1 , 2 , ⋯ , l for ( y 1 , x 1 ) , ⋯ , ( yl , xl ) , y ∈ { − 1 , 1 } \begin{array}{l} \min \Phi(\boldsymbol{w})=\frac{1}{2}(\boldsymbol{ w} \cdot \boldsymbol{w}) \text { wrt } \boldsymbol{w} \\ \text { st } \quad y_{i}\left[\left(\mathbf{x}_{i} \cdot \mathbf{w}\right)+b\right] \geq 1, \quad i=1,2, \cdots, l \\ \text { for } \quad\left(y_{1}, \mathbf{x }_{1}\right), \cdots,\left(y_{l}, \mathbf{x}_{l}\right), y \in\{-1,1\} \\ \end{array }Φ ( w )=21( ww ) 最悪だ w セント y私は[ ( x私は+b ]1 =1 2  のために ( y1バツ1( yバツy{ 1 1 }

PS: ここでの目的関数の求め方については、実は MIT コースにもっと直観的に理解できるアイデアがあります (参考文献の MIT コースを参照)。

3.2. 最適化目標のラグランジュ化

次に、制約の同等の変換を実行します。1 − yi ( w T xi + b ) ≤ 0 1-y_{i}\left(w^{T} x_{i}+b\right) \leq 01y私は( wT ×私は+b )0 を計算し、次にラグランジュ日次数法を使用してラグランジュ関数を作成します。
L ( w , b , λ ) = 1 2 w T w + ∑ i = 1 N λ i [ 1 − yi ( w T xi + b ) ] L(w, b, \lambda)=\frac{1}{2} w^{T} w+\sum_{i=1}^{N} \lambda_{i}\left[1-y_{i} \ left(w^{T} x_{i}+b\right)\right]L ( w ,b l )=21wTw _+i = 1N私は[ 1y私は( wT ×私は+b ) ] λ i ≥ 0 \lambda_{i} \geq 0
を使用したいとします私は0 ,去除去 (w, b) 中使yi ( w T xi + b ) < 1 y_{i}\left(w^{T} x_{i}+b\right)<1y私は( wT ×私は+b )<1の分析は次のとおりです。

  • 1 − yi ( w T xi + b ) > 0 1-y_{i}\left(w^{T} x_{i}+b\right)>01y私は( wT ×私は+b )>0 , 则λ max ⁡ L ( w , b , λ ) = 1 2 w T w + ∞ = ∞ {}_{\lambda}^{\max } L(w, b, \lambda)=\frac{1 }{2} w^{T} w+\infty=\inftyマックス_ _L ( w ,b l )=21wTw _+=
  • 1 − yi ( w T xi + b ) ≤ 0 1-y_{i}\left(w^{T} x_{i}+b\right) \leq 01y私は( wT ×私は+b )0 , 则λ max ⁡ L ( w , b , λ ) = 1 2 w T w + 0 = 1 2 w T w { }_{\lambda}^{\max } L(w, b, \lambda)= \frac{1}{2} w^{T} w+0=\frac{1}{2} w^{T} wマックス_ _L ( w ,b l )=21wTw _+0=21wTw _

したがって、min ⁡ w , b max ⁡ λ L ( w , b , λ ) = min ⁡ w , b ( ∞ , 1 2 w T w ) = min ⁡ w , b 1 2 w T w \min _{w, b} \max _{\lambda} L(w, b, \lambda)=\min _{w, b}\left(\infty, \frac{1}{2} w^{T} w\right) =\min _{w, b} \frac{1}{2} w^{T} ww b最大L ( w ,b l )=w b(21wT w)=w b21wT w、条件λ i ≥ 0 \lambda_{i} \geq 0私は0

したがって、制約付きモデルは (w, b) の制約なしモデルに変換されます:
{ min ⁡ w , b max ⁡ λ L ( w , b , λ ) st λ i ≥ 1 \left\{\begin{array } {cc} \min _{w, b} \max _{\lambda} & L(w, b, \lambda) \\ \text { st } & \lambda_{i} \geq 1 \end{array} \右。{ w b最大セント L ( w ,b l )私は1

3.3. ラグランジュ双対化

通常、最小化問題、つまり導関数が 0 であることを見つける方が便利なので、上記のラグランジュ関数をその双対問題、つまり min ⁡ \minに変換します。最小最大 ⁡ \max最大解の順序が逆転してmax になります ⁡ \max最大最小 ⁡ \min明らかな結論があります。つまり、最初にシーケンスの最小値を見つけてから、すべての最小値の中から最大値 a を見つけます。最初にシーケンスの最大値を見つけて、次にすべての最小値の中から最小値 b を見つけます。最大値。a ≤ ba \leq bあるb以下のパラメータへの割り当て:
max ⁡ α , β , α i ≥ 0 min ⁡ x L ( x , α , β ) ≤ min ⁡ x max ⁡ α , β , α i ≥ 0 L ( x , α , . β ) \max _{\alpha, \beta, \alpha_{i} \geq 0} \min _{x} L(\mathbf{x}, \alpha, \beta) \leq \min _{x}\ max _{\alpha, \beta, \alpha_{i} \geq 0} L(\mathbf{x}, \alpha, \beta)a b a私は0マックスバツL ( x ,_b )バツa b a私は0マックスL ( x ,_β )
この関係は弱い双対性と呼ばれることが多く、強い双対性とは等号を取ることを意味します。
このラグランジュ関数の一連の特性により、最後の関数関係が実際には強い双対であることが証明できます。(凸最適化を学んで、ゆっくり理解できるようになってから、泣きながらおしゃべりしてからかな)

3.4. 二重問題の最適化

まず、分λ \lambdaλは定数解L ( ω , b , λ ) L(\omega, b, \lambda)L ( ω b λ )は最小値( ω ∗ , b ∗ ) \left(\omega^{*}, b^{*}\right) を(ああb )、次にλ \lambdaλを極限にして、\left(\omega^{*}, b^ {*}\right) をL ( ω b λ ) _(ああb )过程如下:
∂ L ( ω , b , λ ) ∂ b = ∂ ∂ b { 1 2 w T ω + ∑ i = 1 N λ i [ 1 − yi ( w T xi + b ) ] } = ∂ ∂ b ( − ∑ i = 1 N λ iyib ) = − ∑ i = 1 N λ iyi = 0 \begin{aligned} \frac{\partial L(\omega, b, \lambda)}{\partial b} & = \frac{\partial}{\partial b}\left\{\frac{1}{2} w^{T} \omega+\sum_{i=1}^{N} \lambda_{i}\left[1 -y_{i}\left(w^{T} x_{i}+b\right)\right]\right\} \\ & =\frac{\partial}{\partial b}\left(-\sum_ {i=1}^{N} \lambda_{i} y_{i} b\right) \\ & =-\sum_{i=1}^{N} \lambda_{i} y_{i}\\ & =0 \end{整列}∂b _L ( ω ,b l)。=∂b _{ 21wて・ω・+i = 1N私は[ 1y私は( wT ×私は+b ) ] }=∂b _(i = 1N私はy私はb )=i = 1N私はy私は=0

∂ l ∂ b = 0 \frac{\partial l}{\partial b}=0∂b _ l=0∑ i = 1 N λ iyi = 0 \sum_{i=1}^{N} \lambda_{i} y_{i}=0i = 1N私はy私は=0L ( ω , b , λ ) L(\omega ,b, \lambda) からL ( ω b l )

L ( ω , b , λ ) = 1 2 w T ω + ∑ i = 1 N λ i [ 1 − yi ( w T xi + b ) ] = 1 2 w T ω + ∑ i = 1 N λ i − ∑ i = 1 N λ iyiw T xi − ∑ i = 1 N λ iyib = 1 2 w T ω + ∑ i = 1 N λ i − ∑ i = 1 N λ iyiw T xi ∂ L ( ω , b , λ ) ∂ ω = ∂ ∂ ω [ 1 2 w T ω + ∑ i = 1 N λ i − ∑ i = 1 N λ iyiw T xi ] = 1 2 ⋅ 2 ω − ∑ i = 1 N λ iyixi \begin{aligned} L (\omega, b, \lambda) & =\frac{1}{2} w^{T} \omega+\sum_{i=1}^{N} \lambda_{i}\left[1-y_{i }\left(w^{T} x_{i}+b\right)\right] \\ & =\frac{1}{2} w^{T} \omega+\sum_{i=1}^{N } \lambda_{i}-\sum_{i=1}^{N} \lambda_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{N} \lambda_ {i} y_{i} b \\ & =\frac{1}{2} w^{T} \omega+\sum_{i=1}^{N} \lambda_{i}-\sum_{i=1 }^{N} \lambda_{i} y_{i} w^{T} x_{i} \\ \frac{\partial L_{(\omega, b,\lambda)}}{\partial \omega} & =\frac{\partial}{\partial \omega}\left[\frac{1}{2} w^{T} \omega+\sum_{i=1} ^{N} \lambda_{i}-\sum_{i=1}^{N} \lambda_{i} y_{i} w^{T} x_{i}\right] \\ & =\frac{1 }{2} \cdot 2 \omega-\sum_{i=1}^{N} \lambda_{i} y_{i} x_{i} \end{aligned}L ( ω b l )∂・ω・∂L _( ω b λ )=21wて・ω・+i = 1N私は[ 1y私は( wT ×私は+b ) ]=21wて・ω・+i = 1N私はi = 1N私はy私はwT ×私はi = 1N私はy私はb=21wて・ω・+i = 1N私はi = 1N私はy私はwT ×私は=∂・ω・[21wて・ω・+i = 1N私はi = 1N私はy私はwT ×私は=212i = 1N私はy私はバツ私は

∂ l ∂ ω = 0 \frac{\partial l}{\partial \omega}=0∂・ω・ l=0 ω= ∑ i = 1 N λ iyxi \omega=\sum_{i=1}^{N} \lambda_{i} y_{i} x_{i}おお=i = 1N私はy私はバツ私はl ( ω , b , λ ) l(\omega, b, \lambda)に代入しますl ( o b λ )を取得:
L ( ω , b , λ ) = 1 2 ( ∑ i = 1 N λ iyixi ) T ( ∑ i = 1 N λ jyjxj ) − ∑ i = 1 N λ iyi ( ∑ i = 1 N λ jyjxj ) T xi + ∑ i = 1 N λ i = 1 2 ∑ i = 1 N ∑ j = 1 N λ i λ jyiyjxi T xj − ∑ i = 1 N ∑ 1 j = N λ i λ jyiyjxj T xi + ∑ i = N λ j = ∑ i = 1 N λ i − 1 2 ∑ i = 1 N ∑ j = 1 N λ i λ jyiyjxi T xj \begin{aligned} L(\omega, b,\lambda)&=\frac{1}{2}\left(\sum_{i=1}^{N} \lambda_{i} y_{i} x_{i}\right)^{T}\left( \sum_{i=1}^{N} \lambda_{j} y_{j} x_{j}\right)-\sum_{i=1}^{N} \lambda_{i} y_{i}\left (\sum_{i=1}^{N} \lambda_{j} y_{j} x_{j}\right)^{T} x_{i}+\sum_{i=1}^{N} \lambda_ {i}\\ &=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \lambda_{i} \lambda_{j} y_{i } y_{j} x_{i}^{T} x_{j}-\sum_{i=1}^{N} \sum_{1 j=}^{N} \lambda_{i} \lambda_{j} y_{i} y_{j} x_{j}^{T} x_{i}+\sum_{i=}^{N} \lambda_{j} \\ &=\sum_{i=1}^{N } \lambda_{i}-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \lambda_{i} \lambda_{j} y_{i } y_{j} x_{i}^{T} x_{j} \end{整列}L ( ω b l )=21(i = 1N私はy私はバツ私はT(i = 1Njyjバツji = 1N私はy私は(i = 1NjyjバツjTバツ私は+i = 1N私は=21i = 1Nj = 1N私はjy私はyjバツTバツji = 1N1j = _N私はjy私はyjバツjTバツ私は+=Nj=i = 1N私は21i = 1Nj = 1N私はjy私はyjバツTバツj
以後、カップリング促進モデルは次のようになります:
{ max ⁡ ∑ i = 1 N λ i − 1 2 ∑ i = 1 N ∑ j = 1 N λ i λ jyiyjxi T xjst 。λ i ≥ 0、∀ i = 1 、 2 、 ⋯ 、 N の場合。∑ i = 1 N λ iyi = 0 \left\{\begin{array}{c} \max \sum_{i=1}^{N} \lambda_{i}-\frac{1}{2} \sum_ {i=1}^{N} \sum_{j=1}^{N} \lambda_{i} \lambda_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ st 。\lambda_{i} \geq 0, \text { for } \forall i=1,2, \cdots, N 。\\ \sum_{i=1}^{N} \lambda_{i} y_{i}=0 \end{array}\right。 最大i = 1N私は21i = 1Nj = 1N私はjy私はyjバツTバツjs t . λ私は0  にとって =1 2 N. _i = 1N私はy私は=0

4. ソフトマージン問題

データが線形分離不可能な場合は、緩和係数を増やします:
ξ i ≥ 0 \xi_{i} \geq 0バツ私は0 の
場合、関数間隔とスラック変数の合計が 1 以上になり、制約条件は
yi ( wxi + b ) ≥ 1 − ξ i y_{i}\left(w x_{i}+b\right) \ にgeq 1-\ xi_{i}y私は( w x私は+b )1バツ私は
目的関数、後者の項は、この緩和 (誤差) をできるだけ小さくすることです:
min ⁡ w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i \min _{w, b} \frac {1 }{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}w b21_2+Ci = 1Nバツ私は
このときの凸化は
min ⁡ w , b , ξ 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i st yi ( wxi + b ) ≥ 1 − ξ i , i = 1 , 2 , ⋯ , n ξ i ≥ 0 、 i = 1 、 2 、 ⋯ 、 n \begin{array}{c} \min _{w, b, \xi} \frac{1}{2}\|w\|^{2} +C \sum_{i=1}^{N} \xi_{i} \\ \text { st } \quad y_{i}\left(w x_{i}+b\right) \geq 1-\xi_ {i}, i=1,2, \cdots, n \\ \quad \xi_{i} \geq 0, i=1,2, \cdots, n \end{array}w b ξ21_2+Ci = 1Nバツ私は セント y私は( w x私は+b )1バツ私は=1 2 nバツ私は0 =1 2
次のように書けます。 拉格朗日関数:
L ( w , b , ξ , α , u ) = 1 2 ∥ w ∥ 2 + C ∑ i = 1 n ξ i − ∑ i = 1 n α i ( yi ( wxi + b ) − 1 + ξ i ) − ∑ i = 1 n β i ξ i \begin{array}{l} L(w, b, \xi, \alpha, u)=\frac{1}{2 }\|w\|^{2}+C \sum_{i=1}^{n} \xi_{i}-\sum_{i=1}^{n} \alpha_{i}\left(y_{ i}\left(w x_{i}+b\right)-1+\xi_{i}\right)-\sum_{i=1}^{n} \beta_{i} \xi_{i}\\ \end{配列}L ( w ,b × _=21_2+Ci = 1バツ私はi = 1ある私は( y私は( w x私は+b )1+バツ私はi = 1b私はバツ私は

また、導出によって、反復モードとパラメーターの制約を取得できます。
∂ L ∂ w = 0 ⇒ w = ∑ i = 1 n α iyixi ∂ L ∂ b = 0 ⇒ 0 = ∑ i = 1 n α iyi ∂ L ∂ ξ = 0 ⇒ C − α i − β i = 0 \begin{array}{l} \frac{\partial L}{\partial w}=0 \Rightarrow w=\sum_{i=1}^{n} \ alpha_{i} y_{i} x_i \\ \frac{\partial L}{\partial b}=0 \Rightarrow 0=\sum_{i=1}^{n} \alpha_{i} y_{i} \ \ \frac{\partial L}{\partial \xi}=0 \Rightarrow C-\alpha_{i}-\beta_{i}=0 \end{array}∂w _∂L _=0w=i = 1ある私はy私はバツ私は∂b _∂L _=00=i = 1ある私はy私は∂ξ _∂L _=0Cある私はb私は=0
KKT 条件による:
α i ( yi ( wxi + b ) − 1 + ξ i ) = 0 \alpha_{i}\left(y_{i}\left(w x_{i}+b\right)-1+\ xi_{i}\right) = 0ある私は( y私は( w x私は+b )1+バツ私は=0

因みに
yi ( ( w ⋅ xi ) + b ) ≥ 1 − ξ i y_{i}\left(\left(\boldsymbol{w} \cdot \boldsymbol{x}_{\boldsymbol{i}}\right)+ b\右) \geq 1-\xi_{i}y私は( ( wバツ私は+b )1バツ私は
デフォルトi ≠ 0 \alpha_{i} \neqある私は=0 は、正しく分類され、境界上に位置するサンプルに対してのみ確立できます。

yi ( ( w ⋅ xi ) + b ) = 1 − ξ i 0 ≤ α i ≤ C , ξ i = 0 \begin{array}{l}y_{i}\left(\left(\boldsymbol{w} \ cdot \boldsymbol{x}_{\boldsymbol{i}}\right)+b\right)=1-\xi_{i} \\ 0 \leq \alpha_{i} \leq C, \quad \xi_{i }=0\end{配列}y私は( ( wバツ私は+b )=1バツ私は0ある私はC バツ私は=0
誤って分類されたサンプル
α i = C , ξ i > 0 \alpha_{i}=C, \quad \xi_{i}>0ある私は=C バツ私は>0無限に{ ∑ i = 1 n ( C − α i − β i ) = 0 α i ≥ 0 β i ≥ 0 \left\{\begin{array}{c} \sum_{i=1}^{
n
i = 1( Cある私はb私は=0ある私は0b私は0

0 ≤ α i ≤ C 0 \leq \alpha_{i} \leq C0ある私はC

w 0 = ∑ SV s α iyixi , α i ≥ 0 \boldsymbol{w}_{0}=\sum_{SV s} \alpha_{i} y_{i} x_{i}, \quad \alpha_{ i} \geq 0w0=SV s _ある私はy私はバツ私はある私は0特定の
電圧範囲、サイクル、レンジ範囲
max ⁡ W ( α ) = ∑ i = 1 l α i − 1 2 ∑ i , j = 1 l α i α jyiyj ( xi ⋅ xj ) st ∑ i = 1 lyi α i = 0 0 ≤ α i ≤ C , i = 1 , 2 , ... , l \begin{aligned} \max W(\太字記号{\alpha})= & \sum_{i=1}^ {l } \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{l} \alpha_{i} \alpha_{j} y_{i} y_{j}\left (x_ {i} \cdot x_{j}\right) \\ & \text { st } \sum_{i=1}^{l} y_{i} \alpha_{i}=0 \\ 0 \leq & \alpha_ {i} \leq C, i=1.2, \ldots, l \end{aligned}最大()=0i = 1ある私は21i j = 1ある私はあるjy私はyj( ×私はバツj セント i = 1y私はある私は=0ある私はC =1 2

参考文献:

コース:

ブログ:

おすすめ

転載: blog.csdn.net/qq_56199570/article/details/129755128