Máquina vectorial de soporte de aprendizaje automático (versión de fórmula de empuje manual)

Directorio de artículos

prefacio

Máquina de vectores de soporte $(V ector de apoyo V$ $V ect o$ $)$ $Máquina,____SVM)$ se originó a partir de la teoría del aprendizaje estadístico, es un modelo de clasificación binaria y es el algoritmo más importante en el aprendizaje automático. Sí, es el "más", no uno de $ellos$ $.$

1. Márgenes y vectores de soporte

La idea central del método de clasificación de máquinas de vectores de soporte es encontrar un hiperplano en el espacio de características como el límite de decisión para dividir las muestras en clases positivas y negativas, y hacer que el error de generalización del modelo en el conjunto de datos desconocido sea pequeño. como sea posible.

Hiperplano: en geometría, un hiperplano es un subespacio de un espacio, que es un espacio cuya dimensión es uno menos que el espacio en el que reside. Si el espacio de datos en sí es tridimensional, su hiperplano es un plano bidimensional, y si el espacio de datos en sí es bidimensional, su hiperplano es una línea unidimensional.

inserte la descripción de la imagen aquí

Por ejemplo, el conjunto de datos anterior, podemos dibujar fácilmente una línea para dividir los datos anteriores en dos categorías, y el error es cero. Para un conjunto de datos, puede haber muchos hiperplanos con un error de 0, como los siguientes:

inserte la descripción de la imagen aquí
Pero dicho modelo no puede garantizar un buen rendimiento de generalización, es decir, no puede garantizar que este hiperplano también funcione bien en conjuntos de datos desconocidos. Entonces introducimos un sustantivo ------ 间隔 $(margen)$ es trasladar el hiperplano que encontramos a ambos lados hasta que se detiene en el punto de muestra más cercano al hiperplano para formar dos nuevos hiperplanos. La distancia entre los dos hiperplanos se llama "intervalo", $y$ $el$ $hiperplano$ está en medio de este "intervalo", es decir, la distancia entre el hiperplano que elegimos y los dos nuevos hiperplanos después de la traducción es igual. Los pocos puntos de muestra más cercanos al hiperplano se denominan支持向量 $(vector de apoyo o t) vector$ $v ect o)$ 。 $_$

inserte la descripción de la imagen aquí

Comparando las dos figuras anteriores, intuitivamente, las muestras se pueden dividir en dos categorías, pero si se le agrega algo de ruido, es obvio que el hiperplano azul tiene la mejor tolerancia a las perturbaciones locales, porque es "lo suficientemente ancho", si No puedo imaginarlo, mire el siguiente ejemplo:
inserte la descripción de la imagen aquí
Obviamente, después de introducir algunas muestras de datos nuevos, $B_1$ Este error de hiperplano sigue siendo 0, y el resultado de la clasificación es el más robusto, $B_2$ Este hiperplano tiene un error de clasificación debido al pequeño intervalo. Por lo tanto, cuando buscamos un hiperplano, esperamos que cuanto mayor sea el intervalo, mejor.
Lo anterior es la máquina de vectores de soporte, es decir, 通过找出间隔最大的超平面，来对数据进行分类el clasificador de .
El modelo de máquina de vectores de soporte se puede dividir en los siguientes tres tipos, de simple a complejo:
$\bullet$ Máquinas de vectores de soporte linealmente separables
$\bullet$ Máquinas de vectores soporte lineales
$\bullet$
MaximizaciónSVM no lineal $($ $duro$ $margen$ $_$ $m a r g en$ $max x imi z a t i o n)$ , aprenda un clasificador lineal, es decir, una máquina de vectores de soporte linealmente separable, también conocida como máquina de vectores de soporte de margen duro; cuando el conjunto de datos de entrenamiento sea aproximadamente separable linealmente, maximice el (soft ( $(so f t$ $m a r g en$ $max x imi z a t i o n)$ , también aprenda un clasificador lineal, es decir, una máquina de vectores de soporte lineal, también conocida como máquina de vectores de soporte de margen suave; cuando el conjunto de datos de entrenamiento es linealmente inseparable, mediante el uso de la técnica kernel (kernel ( $(k er n e l$ $t r ck k) y$ maximización de margen suave, aprendiendo máquinas de vectores de soporte no lineales.

La simplicidad es la base de la complejidad, y también es un caso especial de complejidad.

2. Descripción de la ecuación de la función

inserte la descripción de la imagen aquí

$re=\{(x_1,y_1$ ) $D = {(x, y), (X, y), \dots, (X, y)}, y \in {- 1, + 1}$ , en el espacio de muestra anterior, cualquier línea se puede expresar como: $\bm w^T\bm x+b=0$ 其中 $\bm w=(w_1, w_2,\dots,w_d)^T$ es el vector normal, que determina la dirección del hiperplano; $b$ es el término de desplazamiento, que determina la distancia entre el hiperplano y el origen. Obviamente, el hiperplano también puede ser un vector normal $\bm w$ y desplazamiento $BOK$ .
Para facilitar la derivación y el cálculo, hacemos las siguientes reglas:
los puntos por encima del hiperplano se marcan como positivos y los puntos por debajo del hiperplano se marcan como negativos, es decir, para $(x_i,y_i)\ en D$ ，若 $y_i=+1$ ，则有 $\bm w^T\bm x_i+b>0$ ；若 $y_i=-1$ ，则有 $\bm w^T\bm x_i+b<0$ ，表达式如下： $\begin{casos} \bm w^T\bm x_i+b\geq +1, & y_i=+1\\ \\ \bm w^T\bm x_i+b\leq-1, & y_i=-1 \end{casos}$ Entre ellos, +1和-1表示两条平行于超平面的虚线到超平面的相对距离.
Entonces, cualquier punto $\bm x en el espacio muestral$ al hiperplano se puede escribir como: $r=\frac {|\bm w^T+b|} {||\bm w||}$ A partir de esto, la suma de las distancias desde los vectores soporte de dos etiquetas diferentes al hiperplano, es decir, el intervalo, se puede expresar como: $\gamma=\frac {2} {|| \bmw||}$ Nuestro objetivo es encontrar el hiperplano con el mayor intervalo, es decir, el parámetro $\bm w que satisfaga las siguientes restricciones$ y $b$ , tal que $\gamma$ 最大，即 $\underset {\bm w,b} {max} \frac { 2} {||\bm w||} \\[3pt] sujeto\ a \ y_i(\bm w^T\bm x_i+b)\geq1,i=1,2,\dots,n$ Obviamente, maximizando el intervalo $\gamma$ solo necesita ser minimizado $||\bm w||$ es suficiente, por lo que las restricciones son las siguientes: $\underset { \bm w,b} {min} \frac {1} {2}||\bm w||^2 \\[3pt] sujeto\ a \y_i(\bm w^T\bm x_i+b)\ geq1 ,i=1,2,\puntos,n$

De hecho, es tomar el recíproco, entonces para qué agregar el cuadrado, como dije antes, $L_2$ Paradigma Bueno, sumar un cuadrado es eliminar la operación de raíz cuadrada y simplificar el proceso de cálculo.

3. Solución de parámetros

Para resolver problemas de optimización con restricciones, se suele utilizar para introducir el multiplicador de Lagrange $\lambda$ construye la función lagrangiana. $(estándar\Lagrange\multiplicador\método)$ en el segundo volumen de matemáticas avanzadas. $(método m u l i a l i a r$ d e $s$ $t$ $y$ $d$ $a$ $r$ $d$ $L$ $a$ $g$ $r$ $a$ $g$ $n$ $e$ $)$ $,$ $repasemos$ $brevemente$ $a$ $continuación$ $.$

3.1 Multiplicadores lagrangianos

Para encontrar la función $z = f (x, y)$ en la condición adicional $\varphi(x,y)=0$ Para los posibles puntos extremos debajo de $0$ $\lambda \varphi(x,y)$ donde, $\lambda$ es un parámetro, encuentre su par $x$ 、 $y$ 和 $\lambda$ La primera derivada parcial de $λ$ $\begin{casos} f_x(x,y)+\lambda \varphi_x(x,y)=0\\ \\ f_y(x,y)+\lambda \varphi_y( x ,y)=0\\ \\ \varphi(x,y)=0\\ \end{casos}$ Con este sistema de ecuaciones resuelve $x$ 、 $y$ 和 $\lambda$ , el obtenido $(X, y)$ es la función $f (x, y)$ en la condición adicional $\varphi(x,y)=0$ Posibles puntos extremos por debajo de $0 .$
Si la función tiene más de dos variables independientes y más de una condición adicional, por ejemplo, la función $tu = f (x, y, z, t)$ bajo la condición adicional $\varphi (x,y,z,t)=0 \\[3pt] \psi (x,y,z,t)=0$ , primero puedes hacer la función lagrangiana $L(x,y,z,t)=f(x,y,z,t)+\lambda f(x,y,z,t)+\mu f(x, y, z, t )$ entre ellos, $\lambda,\mu$ es un parámetro, encuentre su par $x$ 、 $y$ , $z$ , $t$ 、 $\lambda$ 和 $\mu$ y conviértala en cero, luego resuelva las ecuaciones simultáneas para obtener $(X, y, z, t)$ 。

Ven, veamos un pequeño problema:
encuentra la función $u=x^2+y^2+z^2$ en las restricciones $z=x^2+y^2$ 和 $X + y + z =$ Los valores máximos y mínimos menores de $4 .$

3.2 Función dual lagrangiana

Problemas de optimización convexa: la función en sí es cuadrática $(cuadrática),$ las restricciones de la función son lineales bajo sus parámetros, tal función se $llama$ $un$ $problema$ $de$ $optimización$ $convexo$ $.$

Primero construya la función de Lagrange de la máquina de vectores de soporte, es decir, la función de pérdida: $L(\bm w,b,\bm \alpha)=\frac {1} {2}||\bm w||^2+\sum_{i=1} ^ m\alpha_i\bigg(1-y_i\big(\bm w^T\bm x_i+b\big)\bigg)\ (\alpha_i \geq0)$ entre ellos, $\alpha=(\alpha_1,\alpha_2,\dots,\alpha_n)^T$ _
Se puede ver que la función de Lagrange se divide en dos partes: la primera parte es la misma que nuestra función de pérdida original y la segunda parte expresa nuestras restricciones. Esperamos que la función de pérdida construida no solo pueda representar nuestra función de pérdida y restricciones originales, sino que también exprese que queremos minimizar la función de pérdida para resolver $\bm w$ y $La intención de b$ , entonces tenemos que empezar con $\alpha$ es un parámetro, resuelve $L(\bm w,b,\alpha)$ , entonces $\bm w$ y $b$ es un parámetro, resuelve $L(\bm w,b,\alpha)$ valor mínimo. Por lo tanto, nuestro objetivo se puede escribir de la siguiente manera: $\underset {\bm w,b} {min}\ \underset {\alpha_i \geq0} {máx} \ L(\bm w,b,\alpha)\ (\alpha_i \geq0)$