Notas de Lin Xuantian sobre técnicas de aprendizaje automático (2)

Notas sobre técnicas de aprendizaje automático de Lin Xuantian (1)
Notas sobre técnicas de aprendizaje automático de Lin Xuantian (3)

Máquina de vectores de soporte dual


P6 2.1
inserte la descripción de la imagen aquí
L1 habla de máquinas de vectores de soporte lineales, y luego L2 habla de máquinas de vectores de soporte duales.
inserte la descripción de la imagen aquí
La sección anterior habló sobre el método para encontrar SVM no lineal. Al convertir al espacio z, el problema QP tendrá d ~ + 1 variables (y N constantes) para resolver. Para resolver d ~ es muy grande, incluso infinito. Deje que el SVM no depende de d ~ :

Podemos convertir el SVM original en un SVM equivalente.Este
inserte la descripción de la imagen aquí
es el problema dual:
inserte la descripción de la imagen aquí
podemos seguir la regularización anterior, introducir λ, y convertir el problema condicional en un problema incondicional, y el individuo de λ El El número es N
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
para definir la función lagrangiana. La literatura relacionada generalmente escribe λ como α
inserte la descripción de la imagen aquí
y convierte SVM en la fórmula correcta.
inserte la descripción de la imagen aquí
Si no se puede satisfacer (b,w) de st, entonces 1-yn(wTzn+b) es un número entero. Si se selecciona max, llegará a infinito, porque al final será min, lo que filtrará el (b, w) que no satisface st.
Si se cumple, yn(wTzn+b) será un no -número negativo, porque hay un máximo y un >=0, por lo que yn(wTzn+b)=0 (nótese que ∑ \sum , porque a>=0, la suma solo puede ser igual a 0 si cada elemento es igual a 0), entonces la fórmula es1 2 w T w \frac{1}{2} w^Tw21wT w.
De esta forma, los datos que no satisfacen st se pueden descartar de manera efectiva y se puede encontrar el1 2 w T w \frac{1}{2} w^Tw21wT w


En la sección anterior de P7 2.2
, la SVM se transformó en una fórmula lagrangiana, entonces, ¿cómo encontrar el límite inferior de la fórmula? Para cualquier (b,w), existe esto:
inserte la descripción de la imagen aquí
debido a que es cierto para cualquier, sigue siendo cierto tomar la fórmula de la mano derecha más grande:
inserte la descripción de la imagen aquí
la fórmula de la mano derecha se convierte en un problema dual (dual) de Lagrange, si esto se resuelve El problema es encontrar el límite inferior de la SVM.

inserte la descripción de la imagen aquí
Debido a que se cumplen las tres condiciones de verde, es una relación fuerte (para el problema QP), por lo que se puede equiparar directamente y también muestra que hay grupos (b, w, α) que satisfacen ambos lados de la ecuación. : no hay restricciones ahora, así que
inserte la descripción de la imagen aquí
comience Resuelva esto:
inserte la descripción de la imagen aquí
porque es min, entonces el requisito:
inserte la descripción de la imagen aquí
para que podamos agregar esta restricción y simplificar la fórmula:
inserte la descripción de la imagen aquí
se puede ver que el último elemento es b * 0, por lo que se convierte en:
inserte la descripción de la imagen aquí
de manera similar, debido a min, necesitamos dar L Encuentre la derivada parcial de w = 0, haga que w sea un número fijo y luego comience a simplificar Min puede ignorarse, porque después de max tiene la siguiente serie de regulaciones, hay no hay b y w en la formula, y el resto solo hay que considerar α.
inserte la descripción de la imagen aquí
Finalmente, las cuatro condiciones que satisfacen la optimización son KKT. Suma: el cuarto punto (Harry Potter y Voldemort deben vivir uno), si yn(wTzn+b)=1 (el punto está justo en la línea divisoria, estos α>=0 puntos son SV), la fórmula es natural Si es 0, >1, según la última figura en 2.1, la fórmula de la figura en 2.1 toma min, entonces αn solo puede tomar 0, por lo que la fórmula final aquí también es 0.
inserte la descripción de la imagen aquí
Finalmente, hay un pequeño ejercicio divertido para consolidar, que parece bastante interesante.②Regresa a la definición de L(b,w,α), y sabrás que yn y zn=1, y luego w= ∑ α nynzn \ sumα_ny_nz_nanynznsalió. ③Se debe a que cada elemento de sigma debe ser 0 (bajo KKT), por lo que es = 0. Para el problema de α2(w-3), siento que puedo ignorar el w, yn específico y cómo hacer zn. En resumen, el todo debe ser 0 Eso es todo.


P8 2.3
inserte la descripción de la imagen aquí
Simplifique la fórmula de la sección anterior, max->min, y luego elévela al cuadrado. La condición de no sumar w = ... es porque el foco cruzado está en αn. Luego descubrió que este es un problema QP convexo (convexo), hay N variables (αn) y luego N+1 condiciones (restricción) (N αn debe ser mayor que cero, 1 ∑ n = 1 N yn α n = 0 \ sum_{n=1}^N y_nα_n=0norte = 1norteynan=0 , un total de N+1), y luego comience a establecer QP.
inserte la descripción de la imagen aquí
Nota: Generalmente, al ingresar QP, no necesita dividir "=" en dos desigualdades, solo escríbalo directamente y luego escriba el rango acotado directamente.
inserte la descripción de la imagen aquí
Sin embargo, tenga en cuenta que q es una matriz densa, densa, es decir, muchos valores en ella no son distintos de cero, y la cantidad de cálculo y almacenamiento es grande, por lo que se utiliza un método especialmente diseñado para SVM.
inserte la descripción de la imagen aquí
A través de las 4 condiciones de KKT, podemos introducir w y b. En particular, cuandoα n > 0 α_n > 0an>0 ,1 − yn ∗ ( w T zn + segundo ) = 1 1-y_n*(w^Tz_n+b) = 11yn( wTz _n+segundo )=1 , y =1 solo significa que el punto está en el límite gordo de SVM (límite gordo), en cuanto a por qué. . Se estima que tenemos que volver a mirar el hiperplano.
inserte la descripción de la imagen aquí


P9 2.4
inserte la descripción de la imagen aquí
Cuando sabemos que α > 0 en la sección anterior, el punto está en el límite. Sin embargo, los puntos en la línea de clasificación no necesariamente soportan vectores (puede haber α = 0), por lo que ahora los puntos con α>0 se denominan vectores soporte (SV), y solo estos SV (es decir, α>0) son estudiados El alcance puede reducirse un poco.
inserte la descripción de la imagen aquí
Por lo tanto, tanto w como b pueden calcularse solo por SV, porque si no es SV, es decir, si α = 0, no tienen sentido.
inserte la descripción de la imagen aquí
Las fórmulas de SVM y PLA son muy similares, ambas son ynzn y_nz_nynznLa combinación lineal de otros w es similar, se puede decir que w está representado por los datos. La w en SVM solo está representada por SV, y PLA está representada por el punto donde ocurrió el error. Filosóficamente, necesitamos saber qué usar para expresar nuestra w.

inserte la descripción de la imagen aquí
Comparar las dos representaciones de SVM: primal y dual, hard-margin significa que la clasificación estricta de ooxx no puede cometer errores. Generalmente, se utiliza Dual SVM.

inserte la descripción de la imagen aquí
Finalmente: Aunque se dice que el svm dual solo está relacionado con N, en realidad d ~ está oculto en Q. A continuación, explicaremos cómo evitar este d ~ .

El resumen final:
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/Only_Wolfy/article/details/89505475
Recomendado
Clasificación