Notas sobre técnicas de aprendizaje automático de Lin Xuantian (1)
Notas sobre técnicas de aprendizaje automático de Lin Xuantian (3)
Máquina de vectores de soporte dual
P6 2.1
L1 habla de máquinas de vectores de soporte lineales, y luego L2 habla de máquinas de vectores de soporte duales.
La sección anterior habló sobre el método para encontrar SVM no lineal. Al convertir al espacio z, el problema QP tendrá d ~ + 1 variables (y N constantes) para resolver. Para resolver d ~ es muy grande, incluso infinito. Deje que el SVM no depende de d ~ :
Podemos convertir el SVM original en un SVM equivalente.Este
es el problema dual:
podemos seguir la regularización anterior, introducir λ, y convertir el problema condicional en un problema incondicional, y el individuo de λ El El número es N
para definir la función lagrangiana. La literatura relacionada generalmente escribe λ como α
y convierte SVM en la fórmula correcta.
Si no se puede satisfacer (b,w) de st, entonces 1-yn(wTzn+b) es un número entero. Si se selecciona max, llegará a infinito, porque al final será min, lo que filtrará el (b, w) que no satisface st.
Si se cumple, yn(wTzn+b) será un no -número negativo, porque hay un máximo y un >=0, por lo que yn(wTzn+b)=0 (nótese que ∑ \sum∑ , porque a>=0, la suma solo puede ser igual a 0 si cada elemento es igual a 0), entonces la fórmula es1 2 w T w \frac{1}{2} w^Tw21wT w.
De esta forma, los datos que no satisfacen st se pueden descartar de manera efectiva y se puede encontrar el1 2 w T w \frac{1}{2} w^Tw21wT w。
En la sección anterior de P7 2.2
, la SVM se transformó en una fórmula lagrangiana, entonces, ¿cómo encontrar el límite inferior de la fórmula? Para cualquier (b,w), existe esto:
debido a que es cierto para cualquier, sigue siendo cierto tomar la fórmula de la mano derecha más grande:
la fórmula de la mano derecha se convierte en un problema dual (dual) de Lagrange, si esto se resuelve El problema es encontrar el límite inferior de la SVM.
Debido a que se cumplen las tres condiciones de verde, es una relación fuerte (para el problema QP), por lo que se puede equiparar directamente y también muestra que hay grupos (b, w, α) que satisfacen ambos lados de la ecuación. : no hay restricciones ahora, así que
comience Resuelva esto:
porque es min, entonces el requisito:
para que podamos agregar esta restricción y simplificar la fórmula:
se puede ver que el último elemento es b * 0, por lo que se convierte en:
de manera similar, debido a min, necesitamos dar L Encuentre la derivada parcial de w = 0, haga que w sea un número fijo y luego comience a simplificar Min puede ignorarse, porque después de max tiene la siguiente serie de regulaciones, hay no hay b y w en la formula, y el resto solo hay que considerar α.
Finalmente, las cuatro condiciones que satisfacen la optimización son KKT. Suma: el cuarto punto (Harry Potter y Voldemort deben vivir uno), si yn(wTzn+b)=1 (el punto está justo en la línea divisoria, estos α>=0 puntos son SV), la fórmula es natural Si es 0, >1, según la última figura en 2.1, la fórmula de la figura en 2.1 toma min, entonces αn solo puede tomar 0, por lo que la fórmula final aquí también es 0.
Finalmente, hay un pequeño ejercicio divertido para consolidar, que parece bastante interesante.②Regresa a la definición de L(b,w,α), y sabrás que yn y zn=1, y luego w= ∑ α nynzn \ sumα_ny_nz_n∑anynznsalió. ③Se debe a que cada elemento de sigma debe ser 0 (bajo KKT), por lo que es = 0. Para el problema de α2(w-3), siento que puedo ignorar el w, yn específico y cómo hacer zn. En resumen, el todo debe ser 0 Eso es todo.
P8 2.3
Simplifique la fórmula de la sección anterior, max->min, y luego elévela al cuadrado. La condición de no sumar w = ... es porque el foco cruzado está en αn. Luego descubrió que este es un problema QP convexo (convexo), hay N variables (αn) y luego N+1 condiciones (restricción) (N αn debe ser mayor que cero, 1 ∑ n = 1 N yn α n = 0 \ sum_{n=1}^N y_nα_n=0∑norte = 1norteynan=0 , un total de N+1), y luego comience a establecer QP.
Nota: Generalmente, al ingresar QP, no necesita dividir "=" en dos desigualdades, solo escríbalo directamente y luego escriba el rango acotado directamente.
Sin embargo, tenga en cuenta que q es una matriz densa, densa, es decir, muchos valores en ella no son distintos de cero, y la cantidad de cálculo y almacenamiento es grande, por lo que se utiliza un método especialmente diseñado para SVM.
A través de las 4 condiciones de KKT, podemos introducir w y b. En particular, cuandoα n > 0 α_n > 0an>0 ,1 − yn ∗ ( w T zn + segundo ) = 1 1-y_n*(w^Tz_n+b) = 11−yn∗( wTz _n+segundo )=1 , y =1 solo significa que el punto está en el límite gordo de SVM (límite gordo), en cuanto a por qué. . Se estima que tenemos que volver a mirar el hiperplano.
P9 2.4
Cuando sabemos que α > 0 en la sección anterior, el punto está en el límite. Sin embargo, los puntos en la línea de clasificación no necesariamente soportan vectores (puede haber α = 0), por lo que ahora los puntos con α>0 se denominan vectores soporte (SV), y solo estos SV (es decir, α>0) son estudiados El alcance puede reducirse un poco.
Por lo tanto, tanto w como b pueden calcularse solo por SV, porque si no es SV, es decir, si α = 0, no tienen sentido.
Las fórmulas de SVM y PLA son muy similares, ambas son ynzn y_nz_nynznLa combinación lineal de otros w es similar, se puede decir que w está representado por los datos. La w en SVM solo está representada por SV, y PLA está representada por el punto donde ocurrió el error. Filosóficamente, necesitamos saber qué usar para expresar nuestra w.
Comparar las dos representaciones de SVM: primal y dual, hard-margin significa que la clasificación estricta de ooxx no puede cometer errores. Generalmente, se utiliza Dual SVM.
Finalmente: Aunque se dice que el svm dual solo está relacionado con N, en realidad d ~ está oculto en Q. A continuación, explicaremos cómo evitar este d ~ .
El resumen final: