[Aprendizaje automático] Máquina de vectores de soporte SVM

La máquina de vectores de soporte implica varios problemas difíciles, como la programación lineal, la optimización convexa y el análisis de matrices. Esta es la tercera vez que la aprendo. Ahora parece que debe haber una cuarta y quinta vez en el futuro. Aprendizaje automático y aprendizaje profundo están básicamente separados de las máquinas de vectores de soporte, pero las ideas en ellas aún valen la pena reflexionar y reflexionar una y otra vez. Estudiar este tipo de cosas también me recuerda la importancia de la habilidad matemática en el camino académico.

(Puede haber muchas preguntas en este artículo, espero que me puedan corregir).

1. Conocimientos previos de matemáticas

1.1 Distancia del punto al plano

La discusión aquí no es solo bidimensional, sino también de alta dimensión:

Primero considere cómo se representa un plano, asumiendo que el vector unitario normal de un plano es ω \omegaω , entonces cualquier punto en este plano debe satisfacer el producto interno del vector normal y la distancia h desde el origen hasta el hiperplano (porque el vector conectado por un punto en el plano y el origen se puede dividir en la dirección a lo largo de la normal vector y la dirección perpendicular al vector normal), por lo que se puede expresar como:
ω x = h \omega x = hω x=h
generalmente se expresa como:
ω x + b = 0 \omega x + b = 0ω x+b=0
entonces cualquier puntoxi x_iXyoLa distancia a este plano es:
d = ω xi − h = ω xi + bd = \omega x_i-h = \omega x_i+bd=ω xyoh=ω xyo+b
Por supuesto, asumimos que el vector normal es un vector unitario normal, si no es un vector unitario normal, la distancia debe ser la siguiente:
d = ω xi + b ∣ ∣ ω ∣ ∣ d = \frac{\omega x_i+b}{|| \omega||}d=∣∣ ω ∣∣ω xyo+segundo
Tenga en cuenta que la distancia anterior puede ser positiva o negativa, y el signo más o menos indica en qué lado del hiperplano está.

1.2 Método del multiplicador de Lagrange

El método del multiplicador de Lagrange es el conocimiento aprendido en Cálculo 2, que se utiliza para resolver problemas de valores extremos bajo restricciones.

Primero veamos la solución a problemas de valores extremos con restricciones de igualdad, como el siguiente problema de optimización:
min ⁡ wf ( w ) st hi ( w ) = 0 , i = 1 , … , l \begin{array}{c} \min _{w} f(w) \\ \text { st } h_{i}(w)=0, \quad i=1, \ldots, l \end{matriz}minwf ( w ) st  hyo( w )=0 ,i=1 ,,yo
La función objetivo es f(w) con las siguientes restricciones de igualdad. Usualmente la solución es introducir el operador Lagrangiano, aquí usa β \betaβ se usa para representar al operador, y la fórmula de Lagrange es
L ( w , β ) = f ( w ) + ∑ i = 1 l β ihi ( w ) \mathcal{L}(w, \beta)=f(w )+\sum_{i=1}^{l} \beta_{i} h_{i}(w)L ( w ,segundo )=f ( w )+yo = 1yobyohyo( w )
A continuación, solo se requiere la derivada parcial para resolver w.

Espere la oportunidad de agregarlo aquí.

2. Idea central:

2.1 Pensamiento

Encuentre el hiperplano para la clasificación, de modo que el punto más cercano al hiperplano esté lo más alejado posible del hiperplano .

Esta idea parece muy simple, pero utiliza muchos métodos y técnicas de optimización en la operación real, lo cual es bastante difícil.

3. Problema de espacio duro:

3.1 Objetivos de optimización y deformaciones básicas

Bueno, encontremos una manera de dividir los datos en los lados izquierdo y derecho del plano, y el valor de los datos es xi x_iXyo, etiquetado como yi y_iyyo, la distancia entre los datos y el plano es di d_idyo(De nuevo, d puede ser positivo o negativo). Pensamos que los puntos en el hiperplano d>0 deberían satisfacer y=1, y los puntos en d<0 deberían satisfacer y=-1. Entonces d ∗ yd*ydy representa el valor absoluto de la distancia.

Sea el hiperplano w T x + b = 0 w^Tx+b=0wTX _+b=0 , entonces nuestra idea central (hacer queel punto más cercano al hiperplanoesté lo más lejosdel hiperplano) se puede expresar de la siguiente manera

max ⁡ min ⁡ yo γ yo = yi ∗ ( w T xi + segundo ) ∥ w ∥ 2 \max \min_{i} \gamma_i=\frac{y_i *\left(w^{T} x_i+b\right) }{\|w\|_{2}}máximoiminutoCyo=w 2yyo( wTX _yo+segundo )
问题可以描述为:
max ⁡ min ⁡ γ i = yi ∗ ( wxi + b ) ∥ w ∥ 2 st yi [ ( xi ⋅ w ) + b ] ≥ dmin , i = 1 , 2 , ⋯ , l for ( y 1 , X 1 ) , ⋯ , ( yl , xl ) , y ∈ { − 1 , 1 } \begin{array}{l} \max \min \gamma_i=\frac{y_i *\left(w x_i+b\right )}{\|w\|_{2}}\\ \text { st } \quad y_{i}\left[\left(\mathbf{x}_{i} \cdot \mathbf{w}\right )+b\right] \geq d_{min}, \quad i=1,2, \cdots, l \\ \text { for } \quad\left(y_{1}, \mathbf{x}_{1 }\right), \cdots,\left(y_{l}, \mathbf{x}_{l}\right), y \in\{-1,1\} \\ \end{matriz}máximominCyo=w 2yyo( ancho xyo+ b ) calle yyo[ ( xyow )+segundo ]dminuto,i=1 ,2 ,,yo para ( y1,X1),,( yyo,Xyo),y{ - 1 ,1 }

Administrador general d_{min}dminutodividir a un lado para obtener w ′ w'w' b'b'b ,可以重写如下的约束:
max ⁡ min ⁡ γ i = yi ∗ ( w ′ xi + b ′ ) ∥ w ′ ∥ 2 st yi [ ( xi ⋅ w ′ ) + b ′ ] ≥ 1 , i = 1 , 2 , ⋯ , l para ( y 1 , X 1 ) , ⋯ , ( yl , xl ) , y ∈ { − 1 , 1 } \begin{array}{l} \max \min \gamma_i=\frac{y_i *\left(w' x_i+b'\right)}{\|w'\|_{2}}\\ \text { st } \quad y_{i}\left[\left(\mathbf{x} _ {i} \cdot \mathbf{w'}\right)+b'\right] \geq 1, \quad i=1,2, \cdots, l \\ \text { para } \quad\left(y_ {1}, \mathbf{x}_{1}\right), \cdots,\left(y_{l}, \mathbf{x}_{l}\right), y \in\{-1,1 \} \\ \end{matriz}máximominCyo=w2yyo( wx _yo+ segundo ) calle yyo[ ( xyow )+b ]1 ,i=1 ,2 ,,yo para ( y1,X1),,( yyo,Xyo),y{ - 1 ,1 }
Se pueden imaginar consideraciones simples, debe haber una desigualdad en el valor límite que se convierte en una restricción de igualdad, y dado que min es para i, y γ \gammaEl denominador de γ es irrelevante, por lo que el valor mínimo del numerador está restringido a ser 1 por la ecuación, y el propósito del problema es minimizar el denominador:

max ⁡ 1 ∥ w ′ ∥ 2 st yi [ ( xi ⋅ w ′ ) + segundo ′ ] ≥ 1 , yo = 1 , 2 , ⋯ , l para ( y 1 , x 1 ) , ⋯ , ( yl , xl ) , y ∈ { − 1 , 1 } \begin{array}{c} \max \frac{1}{\|w'\|_{2}}\\ \text { st } \quad y_{i}\left [\left(\mathbf{x}_{i} \cdot \mathbf{w'}\right)+b'\right] \geq 1, \quad i=1,2, \cdots, l \\ \text { para } \quad\left(y_{1}, \mathbf{x}_{1}\right), \cdots,\left(y_{l}, \mathbf{x}_{l}\right), y \in\{-1,1\} \\ \end{matriz}máximow21 calle yyo[ ( xyow )+b ]1 ,i=1 ,2 ,,yo para ( y1,X1),,( yyo,Xyo),y{ - 1 ,1 }

通常写成这样:
min ⁡ Φ ( w ) = 1 2 ( w ⋅ w ) wrt w st yi [ ( xi ⋅ w ) + segundo ] ≥ 1 , i = 1 , 2 , ⋯ , l para ( y 1 , x 1 ) , ⋯ , ( yl , xl ) , y ∈ { − 1 , 1 } \begin{array}{l} \min \Phi(\boldsymbol{w})=\frac{1}{2}(\boldsymbol{ w} \cdot \boldsymbol{w}) \text { wrt } \boldsymbol{w} \\ \text { st } \quad y_{i}\left[\left(\mathbf{x}_{i} \cdot \mathbf{w}\right)+b\right] \geq 1, \quad i=1,2, \cdots, l \\ \text { para } \quad\left(y_{1}, \mathbf{x }_{1}\right), \cdots,\left(y_{l}, \mathbf{x}_{l}\right), y \in\{-1,1\} \\ \end{matriz }minΦ ( w )=21( ww )  wrt  w calle yyo[ ( xyow )+segundo ]1 ,i=1 ,2 ,,yo para ( y1,X1),,( yyo,Xyo),y{ - 1 ,1 }

PD: Acerca de encontrar la función objetivo aquí, de hecho, hay una idea de comprensión más intuitiva en el curso del MIT (ver el curso del MIT en la referencia).

3.2 Lagrangianización del objetivo de optimización

Ahora haz la transformación equivalente de las restricciones: 1 − yi ( w T xi + b ) ≤ 0 1-y_{i}\left(w^{T} x_{i}+b\right) \leq 01yyo( wTX _yo+segundo )0 , y luego use el método del número diario de Lagrange para construir la función Lagrangiana:
L ( w , b , λ ) = 1 2 w T w + ∑ i = 1 N λ i [ 1 − yi ( w T xi + b ) ] L(w, b, \lambda)=\frac{1}{2} w^{T} w+\sum_{i=1}^{N} \lambda_{i}\left[1-y_{i} \ izquierda(w^{T} x_{i}+b\derecha)\derecha]L ( w ,b ,yo )=21wT w+yo = 1norteyoyo[ 1yyo( wTX _yo+b ) ]
Queremos usarλ i ≥ 0 \lambda_{i} \geq 0yoyo0 ,去除去 (w, b) 中使yi ( w T xi + b ) < 1 y_{i}\left(w^{T} x_{i}+b\right)<1yyo( wTX _yo+segundo )<1 , el análisis es el siguiente:

  • 1 − yi ( w T xi + segundo ) > 0 1-y_{i}\left(w^{T} x_{i}+b\right)>01yyo( wTX _yo+segundo )>0 , 则λ max ⁡ L ( w , segundo , λ ) = 1 2 w T w + ∞ = ∞ {}_{\lambda}^{\max } L(w, b, \lambda)=\frac{1 {2} w^{T} w+\infty=\inftyyomx _ _L ( w ,b ,yo )=21wT w+=
  • 1 − yi ( w T xi + segundo ) ≤ 0 1-y_{i}\left(w^{T} x_{i}+b\right) \leq 01yyo( wTX _yo+segundo )0 , 则λ max ⁡ L ( w , segundo , λ ) = 1 2 w T w + 0 = 1 2 w T w { }_{\lambda}^{\max } L(w, b, \lambda)= \frac{1}{2} w^{T} w+0=\frac{1}{2} w^{T} wyomx _ _L ( w ,b ,yo )=21wT w+0=21wT w

从而, min ⁡ w , segundo max ⁡ λ L ( w , segundo , λ ) = min ⁡ w , segundo ( ∞ , 1 2 w T w ) = min ⁡ w , segundo 1 2 w T w \min _{w, b} \max _{\lambda} L(w, b, \lambda)=\min _{w, b}\left(\infty, \frac{1}{2} w^{T} w\right) =\min _{w, b} \frac{1}{2} w^{T} wminw , bmáximoyoL ( w ,b ,yo )=minw , b(,21wT w)=minw , b21wT w, la condiciónλ i ≥ 0 \lambda_{i} \geq 0yoyo0 _

Por lo tanto, el modelo restringido se transformará en un modelo sin restricciones para (w, b):
{ min ⁡ w , b max ⁡ λ L ( w , b , λ ) st λ i ≥ 1 \left\{\begin{array } {cc} \min _{w, b} \max _{\lambda} & L(w, b, \lambda) \\ \text { st } & \lambda_{i} \geq 1 \end{matriz} \ bien.{ minw , bmáximoyost L ( w ,b ,yo )yoyo1

3.3 Dualización lagrangiana

Por lo general, es más conveniente para nosotros encontrar el problema de minimización, es decir, la derivada es 0, por lo que convertimos la función lagrangiana anterior en su problema dual, es decir, min ⁡ \ minmín ,máx ⁡ \ máxEl orden de la solución máxima se invierte y se convierte enmax ⁡ \maxmáxmin ⁡ \minmín . Hay una conclusión obvia, es decir, primero encuentre el valor mínimo para una secuencia y luego encuentre un valor máximo a entre todos los valores mínimos; primero encuentre el valor máximo para una secuencia y luego encuentre un valor mínimo b entre todos los valores valores máximos. a ≤ ba \leq bab Asignación a los siguientes parámetros:
max ⁡ α , β , α i ≥ 0 min ⁡ x L ( x , α , β ) ≤ min ⁡ x max ⁡ α , β , α i ≥ 0 L ( x , α , . β ) \max _{\alpha, \beta, \alpha_{i} \geq 0} \min _{x} L(\mathbf{x}, \alpha, \beta) \leq \min _{x}\ max _ {\alpha, \beta, \alpha_{i} \geq 0} L(\mathbf{x}, \alpha, \beta)un , b , unyo0máximoXminutoL ( x ,un ,segundo )Xminutoun , b , unyo0máximoL ( x ,un ,β )
Esta relación a menudo se llama dualidad débil, y dualidad fuerte significa tomar el signo igual.
Debido a una serie de propiedades de esta función lagrangiana, se puede demostrar que la última relación funcional es en realidad un dual fuerte. (Tal vez solo después de que aprenda la optimización convexa y vuelva a comprender lentamente, llore y charle)

3.4 Optimización de problemas duales

Primero, 分λ \lambdaλ se considera una solución constante,L ( ω , b , λ ) L(\omega, b, \lambda)L ( ω ,b ,λ ) toma el valor mínimo( ω ∗ , b ∗ ) \left(\omega^{*}, b^{*}\right)( ay ,b ), y luego paraλ \lambdaλ para limitar, resuelve\left(\omega^{*}, b^ {*}\right)minL ( ω ,b ,λ ) _( ay ,b )过程如下:
∂ L ( ω , segundo , λ ) ∂ segundo = ∂ ∂ segundo { 1 2 w T ω + ∑ yo = 1 norte λ yo [ 1 − yi ( w T xi + segundo ) ] } = ∂ ∂ segundo ( − ∑ yo = 1 norte λ iyib ) = − ∑ yo = 1 norte λ iyi = 0 \begin{alineado} \frac{\parcial L(\omega, b, \lambda)}{\parcial b} & = \frac{\parcial}{\parcial b}\left\{\frac{1}{2} w^{T} \omega+\sum_{i=1}^{N} \lambda_{i}\left[1 -y_{i}\left(w^{T} x_{i}+b\right)\right]\right\} \\ & =\frac{\parcial}{\parcial b}\left(-\sum_ {i=1}^{N} \lambda_{i} y_{i} b\right) \\ & =-\sum_{i=1}^{N} \lambda_{i} y_{i}\\ & =0 \end{alineado}segundoL ( ω ,b ,l ).=segundo{ 21wT ω+yo = 1norteyoyo[ 1yyo( wTX _yo+b ) ] }=segundo( -yo = 1norteyoyoyyosegundo )=yo = 1norteyoyoyyo=0

∂ l ∂ segundo = 0 \frac{\parcial l}{\parcial b}=0segundo l=0∑ i = 1 norte λ iyi = 0 \sum_{i=1}^{N} \lambda_{i} y_{i}=0yo = 1norteyoyoyyo=0De L ( ω , b , λ ) L(\omega ,b, \lambda)L ( ω ,b ,yo )

L ( ω , segundo , λ ) = 1 2 w T ω + ∑ yo = 1 norte λ yo [ 1 - yi ( w T xi + segundo ) ] = 1 2 w T ω + ∑ yo = 1 norte λ yo - ∑ yo = 1 norte λ iyiw T xi - ∑ yo = 1 norte λ iyib = 1 2 w T ω + ∑ yo = 1 norte λ yo - ∑ yo = 1 norte λ iyiw T xi ∂ L ( ω , segundo , λ ) ∂ ω = ∂ ∂ ω [ 1 2 w T ω + ∑ yo = 1 norte λ yo - ∑ yo = 1 norte λ iyiw T xi ] = 1 2 ⋅ 2 ω - ∑ yo = 1 norte λ iyixi \begin{aligned} L (\omega, b, \lambda) & =\frac{1}{2} w^{T} \omega+\sum_{i=1}^{N} \lambda_{i}\left[1-y_{i }\left(w^{T} x_{i}+b\right)\right] \\ & =\frac{1}{2} w^{T} \omega+\sum_{i=1}^{N } \lambda_{i}-\sum_{i=1}^{N} \lambda_{i} y_{i} w^{T} x_{i}-\sum_{i=1}^{N} \lambda_ {i} y_{i} b \\ & =\frac{1}{2} w^{T} \omega+\sum_{i=1}^{N} \lambda_{i}-\sum_{i=1 }^{N} \lambda_{i} y_{i} w^{T} x_{i} \\ \frac{\parcial L_{(\omega, b,\lambda)}}{\parcial \omega} & =\frac{\parcial}{\parcial \omega}\left[\frac{1}{2} w^{T} \omega+\sum_{i=1} ^{N} \lambda_{i}-\sum_{i=1}^{N} \lambda_{i} y_{i} w^{T} x_{i}\right] \\ & =\frac{1 {2} \cdot 2 \omega-\sum_{i=1}^{N} \lambda_{i} y_{i} x_{i} \end{alineado}L ( ω ,b ,yo )ω∂L _( ω , segundo , λ )=21wT ω+yo = 1norteyoyo[ 1yyo( wTX _yo+b ) ]=21wT ω+yo = 1norteyoyoyo = 1norteyoyoyyowTX _yoyo = 1norteyoyoyyob=21wT ω+yo = 1norteyoyoyo = 1norteyoyoyyowTX _yo=ω[21wT ω+yo = 1norteyoyoyo = 1norteyoyoyyowTX _yo]=212 oyo = 1norteyoyoyyoXyo

∂ l ∂ ω = 0 \frac{\parcial l}{\parcial \omega}=0ω l=0 ω= ∑ yo = 1 norte λ iyxi \omega=\sum_{i=1}^{N} \lambda_{i} y_{i} x_{i}Vaya=yo = 1norteyoyoyyoXyoSustituye en l ( ω , b , λ ) l(\omega, b, \lambda)yo ( o ,b ,λ ) se obtiene:
L ( ω , segundo , λ ) = 1 2 ( ∑ yo = 1 norte λ iyixi ) T ( ∑ yo = 1 norte λ jyjxj ) - ∑ yo = 1 norte λ iyi ( ∑ yo = 1 norte λ jyjxj ) T xi + ∑ yo = 1 norte λ yo = 1 2 ∑ yo = 1 norte ∑ j = 1 norte λ yo λ jyiyjxi T xj − ∑ yo = 1 norte ∑ 1 j = norte λ yo λ jyiyjxj T xi + ∑ yo = norte λ j = ∑ yo = 1 norte λ yo - 1 2 ∑ yo = 1 norte ∑ j = 1 norte λ yo λ jyiyjxi T xj \begin{alineado} L(\omega, segundo,\lambda)&=\frac{1}{2}\left(\sum_{i=1}^{N} \lambda_{i} y_{i} x_{i}\right)^{T}\left( \sum_{i=1}^{N} \lambda_{j} y_{j} x_{j}\right)-\sum_{i=1}^{N} \lambda_{i} y_{i}\left (\sum_{i=1}^{N} \lambda_{j} y_{j} x_{j}\right)^{T} x_{i}+\sum_{i=1}^{N} \lambda_ {i}\\ &=\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \lambda_{i} \lambda_{j} y_{i } y_{j} x_{i}^{T} x_{j}-\sum_{i=1}^{N} \sum_{1 j=}^{N} \lambda_{i} \lambda_{j} y_{i} y_{j} x_{j}^{T} x_{i}+\sum_{i=}^{N} \lambda_{j} \\ &=\sum_{i=1}^{N } \lambda_{i}-\frac{1}{2} \sum_{i=1}^{N} \sum_{j=1}^{N} \lambda_{i} \lambda_{j} y_{i } y_{j} x_{i}^{T} x_{j} \end{alineado}L ( ω ,b ,yo )=21(yo = 1norteyoyoyyoXyo)T(yo = 1norteyojyjXj)yo = 1norteyoyoyyo(yo = 1norteyojyjXj)TXyo+yo = 1norteyoyo=21yo = 1nortej = 1norteyoyoyojyyoyjXiTXjyo = 1norte1 j =norteyoyoyojyyoyjXjTXyo+yo =norteyoj=yo = 1norteyoyo21yo = 1nortej = 1norteyoyoyojyyoyjXiTXj
于是对偶问题优化模型为:
{ max ⁡ ∑ yo = 1 norte λ yo - 1 2 ∑ yo = 1 norte ∑ j = 1 norte λ yo λ jyiyjxi T xjst . λ yo ≥ 0 , para ∀ yo = 1 , 2 , ⋯ , norte . ∑ i = 1 norte λ iyi = 0 \left\{\begin{array}{c} \max \sum_{i=1}^{N} \lambda_{i}-\frac{1}{2} \sum_ {i=1}^{N} \sum_{j=1}^{N} \lambda_{i} \lambda_{j} y_{i} y_{j} x_{i}^{T} x_{j} \\ calle . \lambda_{i} \geq 0, \text { para } \forall i=1,2, \cdots, N . \\ \sum_{i=1}^{N} \lambda_{i} y_{i}=0 \end{matriz}\right. máximoyo = 1norteyoyo21yo = 1nortej = 1norteyoyoyojyyoyjXiTXjs t . λyo0 , para yo=1 ,2 ,,n _yo = 1norteyoyoyyo=0

4. Problema de margen blando

Si los datos son linealmente inseparables, entonces aumente el factor de relajación:
ξ i ≥ 0 \xi_{i} \geq 0Xyo0
hace que el intervalo de la función más la variable de holgura sea mayor o igual a 1, entonces la condición de restricción se convierte en
yi ( wxi + b ) ≥ 1 − ξ i y_{i}\left(w x_{i}+b\right) \ geq 1-\ xi_{i}yyo( ancho xyo+segundo )1Xyo
La función objetivo, el último término, es hacer que esta relajación (error) sea lo más pequeña posible:
min ⁡ w , b 1 2 ∥ w ∥ 2 + C ∑ i = 1 N ξ i \min_{w, b} \frac {1 }{2}\|w\|^{2}+C \sum_{i=1}^{N} \xi_{i}w , bminuto21w 2+Cyo = 1norteXyo
此时的凸优化为
min ⁡ w , segundo , ξ 1 2 ∥ w ∥ 2 + C ∑ yo = 1 norte ξ yo st yi ( wxi + segundo ) ≥ 1 − ξ yo , yo = 1 , 2 , ⋯ , norte ξ yo ≥ 0 , yo = 1 , 2 , ⋯ , norte \begin{array}{c} \min _{w, b, \xi} \frac{1}{2}\|w\|^{2} +C \sum_{i=1}^{N} \xi_{i} \\ \text { st } \quad y_{i}\left(w x_{i}+b\right) \geq 1-\xi_ {i}, i=1,2, \cdots, n \\ \quad \xi_{i} \geq 0, i=1,2, \cdots, n \end{matriz}minw , segundo , ξ21w 2+Cyo = 1norteXyo calle yyo( ancho xyo+segundo )1Xyo,i=1 ,2 ,,norteXyo0 ,i=1 ,2 ,,n
可以写出如下的拉格朗日函数:
L ( w , segundo , ξ , α , tu ) = 1 2 ∥ w ∥ 2 + C ∑ yo = 1 norte ξ yo − ∑ yo = 1 norte α yo ( yi ( wxi + segundo ) − 1 + ξ yo ) − ∑ yo = 1 norte β yo ξ yo \begin{array}{l} L(w, b, \xi, \alpha, u)=\frac{1}{2 }\|w\|^{2}+C \sum_{i=1}^{n} \xi_{i}-\sum_{i=1}^{n} \alpha_{i}\left(y_{ i}\left(w x_{i}+b\right)-1+\xi_{i}\right)-\sum_{i=1}^{n} \beta_{i} \xi_{i}\\ \end{matriz}L ( w ,b ,x ,un ,tu )=21w 2+Cyo = 1nXyoyo = 1nayo( yyo( ancho xyo+segundo )1+Xyo)yo = 1nbyoXyo

También por derivación podemos obtener el modo iterativo y las restricciones de los parámetros:
∂ L ∂ w = 0 ⇒ w = ∑ i = 1 n α iyixi ∂ L ∂ b = 0 ⇒ 0 = ∑ i = 1 n α iyi ∂ L ∂ ξ = 0 ⇒ C − α yo − β yo = 0 \begin{array}{l} \frac{\parcial L}{\parcial w}=0 \Rightarrow w=\sum_{i=1}^{n} \ alfa_{i} y_{i} x_i \\ \frac{\parcial L}{\parcial b}=0 \Rightarrow 0=\sum_{i=1}^{n} \alpha_{i} y_{i} \ \ \frac{\parcial L}{\parcial \xi}=0 \Rightarrow C-\alpha_{i}-\beta_{i}=0 \end{array}w L=0w=yo = 1nayoyyoXyosegundo L=00=yo = 1nayoyyoξ L=0Cayobyo=0
由KKT条件:
α i ( yi ( wxi + b ) − 1 + ξ i ) = 0 \alpha_{i}\left(y_{i}\left(w x_{i}+b\right)-1+\ xi_{i}\derecha) = 0ayo( yyo( ancho xyo+segundo )1+Xyo)=0

因为
yi ( ( w ⋅ xi ) + segundo ) ≥ 1 − ξ i y_{i}\left(\left(\boldsymbol{w} \cdot \boldsymbol{x}_{\boldsymbol{i}}\right)+ b\right) \geq 1-\xi_{i}yyo( ( wXyo)+segundo )1Xyo
Predeterminado i ≠ 0 \alpha_{i} \neqayo=0 solo se puede establecer para muestras correctamente clasificadas y ubicadas en el límite, es decir:

yi ( ( w ⋅ xi ) + segundo ) = 1 − ξ yo 0 ≤ α yo ≤ C , ξ yo = 0 \begin{array}{l}y_{i}\left(\left(\boldsymbol{w} \ cdot \boldsymbol{x}_{\boldsymbol{i}}\right)+b\right)=1-\xi_{i} \\ 0 \leq \alpha_{i} \leq C, \quad \xi_{i }=0\end{matriz}yyo( ( wXyo)+segundo )=1Xyo0ayoC ,Xyo=0
Muestras mal clasificadas
α i = C , ξ i > 0 \alpha_{i}=C, \quad \xi_{i}>0ayo=C ,Xyo>0indefinidamente { ∑ yo = 1 norte ( C − α yo − β yo ) = 0 α yo ≥ 0 β yo ≥ 0 \left\{\begin{array}{c} \sum_{i=1}^{
norte
yo = 1n( Cayobyo)=0ayo0byo0

0 ≤ α yo ≤ C 0 \leq \alpha_{i} \leq C0ayoC

w 0 = ∑ SV s α iyixi , α i ≥ 0 \boldsymbol{w}_{0}=\sum_{SV s} \alpha_{i} y_{i} x_{i}, \quad \alpha_{ yo} \geq 0w0=S V sayoyyoXyo,ayo0Rango de voltaje específico
, ciclo, rango rango
máx. ⁡ W ( α ) = ∑ i = 1 l α i − 1 2 ∑ i , j = 1 l α i α jyiyj ( xi ⋅ xj ) st ∑ i = 1 lyi α i = 0 0 ≤ α yo ​​≤ C , yo = 1 , 2 , ... , l \begin{alineado} \max W(\bold symbol{\alpha})= & \sum_{i=1}^ {l } \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{l} \alpha_{i} \alpha_{j} y_{i} y_{j}\left (x_ {i} \cdot x_{j}\right) \\ & \text { st } \sum_{i=1}^{l} y_{i} \alpha_{i}=0 \\ 0 \leq & \alpha_ {i} \leq C, i=1.2, \ldots, l \end{alineado}máximoW ( un )=0yo = 1yoayo21yo , j = 1yoayoajyyoyj( XyoXj) calle yo = 1yoyyoayo=0ayoC ,i=1 ,2 ,,yo

Referencias:

curso:

Blog:

Supongo que te gusta

Origin blog.csdn.net/qq_56199570/article/details/129755128
Recomendado
Clasificación