máquinas de vectores de soporte (1)

SVM es esencialmente una búsqueda de un hiperplano en el espacio de características entre las muestras de entrenamiento que exceden de más o menos dos tipos de distancia desde el plano al máximo, que es el de maximizar el intervalo mencionado aquí de modo que todos los puntos de muestra de la ultra-distancia desde el plano de la más pequeña entre. Sabemos que la percepción es un SVM máquina básica, pero la percepción entre las máquinas, y no hay ningún requisito para maximizar el intervalo, pero sólo es capaz de encontrar un hiperplano de datos separada linealmente separables. Además, como se puede usar en el truco SVM núcleo, por lo que, en esencia, es un clasificador SVM no lineal. Desde simples a complejos, SVM se puede dividir en tres tipos.

1, linealmente separables SVM, también conocido como una SVM intervalo duro

2, lineal SVM, también conocido como SVM de margen suave

3, SVM no lineal

Estos tres modelos tienen una más universal que un ex uno es un caso especial de este último

 

Una SVM lineal linealmente separable es SVM separable para conjunto de datos separable lineal diseño de una máquina de vectores de soporte. Se refiere a la llamada linealmente separables, hay una formación de muestras hiperplano pueden estar completamente separados. Debe definir dos tipos de función de la distancia de la distancia y la geometría.

1, la función de distancia se define como sigue, para cualquier punto $ muestra (x_ {i}, y_ {i}), i = 1,2,3, ..., N $

$ \ Hat {\ gamma} _ {i} = y_ {i} * (w * x_ {i} + b) $

Obviamente, si el punto de muestra es entonces negativo tipo y = -1, $ wx + b $ debe ser menor que cero, y si es n tipo, sobre todo mayor que cero, de tal manera que son positivos para la definición de una función de la distancia.

Sin embargo, un problema es una función de la distancia, el tamaño no es fija, suponiendo que los cambios en nuestro equipo w yb proporciones iguales, el cambio proporcional en función de la distancia $ \ hat {\ gamma} $ quisieran, pero sustancialmente antes y W, b representa el mismo hiperplano. ¿Cómo superar este problema, por lo que la distancia geométrica entró en vigor.

2, la distancia geométrica

$ \ Gamma_ {i} = y_ {i} * (\ frac {w} {| w |} * x_ {i} + \ frac {b} {| w |}) $

En este caso no habría el coeficiente de x posibilidad telescópica se debe establecer en 1 como el primero de su longitud.

3, la definición formal de SVM linealmente separables - forma original

De acuerdo con la descripción anterior, que estamos buscando una distancia geométrica mínima, la distancia geométrica es el más pequeño entre todas las muestras desde el punto de que definimos como

$ \ Gamma $

La distancia se define como una función de la correspondiente

$ \ Hat {\ gamma} $

Así linealmente separables SVM puede ser formalizado

$ Argmax (\ gamma) $

$ St y_ {i} * (\ frac {w} {| w |} * x_ {i} + \ frac {b} {| w |}) \ ge \ gamma, i = 1,2,3, .. ., N $

Podemos encontrar que las restricciones son demasiado complicados, porque cada restricción tiene una norma logarítmica de w, se reducirá a la siguiente

$ Argmax \ frac {\ hat {\ gamma}} {| w |} $

$ St y_ {i} * (w * x_ {i} + b) \ ge \ hat {\ gamma}, i = 1,2,3, ..., N $

En la función objetivo, que nos pareció como una función de la distancia que hay, pero sabemos que tiene una función de la distancia desde el tamaño de la incertidumbre, podemos definirlo como un hecho, entonces la función de distancia puede ser transformado en el factor de escala de distancia se multiplica por un cierto .

Además, debido a $ argmax (\ frac {1} {| w |}) $ y es $ argmin (\ frac {1} {2} | w | ^ {2}) $ es equivalente al cuadrado, por lo que el modelo anterior se define como la transformación

$ Argmin \ frac {1} {2} | w | ^ {2} $

$ St y_ {i} * (w * x_ {i} + b) \ ge 1, i = 1,2,3, ..., N $

De hecho, obtenemos la representación lineal original de SVM separables

4, la SVM lineal para la representación dual separable

De acuerdo con la dualidad de Lagrange, podemos construir el problema original del problema dual. En primer lugar, una función de Lagrange

$ L (w, b, \ alpha) = \ frac {1} {2} | W | ^ {2} - \ sum_ {i = 1} ^ {N} \ alpha_ {i} * (y_ {i} * (w * x_ {i} + b) -1) $ - (1)

De acuerdo a minimizar el problema de la dualidad, el problema original, en realidad corresponde a la emisión máxima y mínima aquí para obtener la función de Lagrange, a saber,

$ Argmax _ {\ alpha} argmin_ {w, b} L (w, b, \ alpha) $

Así que para el problema dual

$ Argmax _ {\ alpha} argmin_ {w, b} L (w, b, \ alpha) $

$ St \ alpha_ {i} \ ge 0, i = 1,2,3, ..., N $

(1) El primero es un problema muy pequeño

Nos derivada parcial de la anterior fórmula (1) pueden obtenerse

$ \ Nabla_ {w} = W- \ sum_ {i = 1} ^ {N} (\ alpha_ {i} * Y_ {i} * x_ {i}) $ ---- (2)

$ \ Nabla_ {b} = - \ sum_ {i = 1} ^ {N} (\ alpha_ {i} * Y_ {i}) $ ---- (3)

El orden anterior (1) (2) a cero, obtenemos

$ W = \ sum_ {i = 1} ^ {N} (\ alpha_ {i} * Y_ {i} * x_ {i}) $ ---- (4)

$ \ Sum_ {i = 1} ^ {N} (\ alpha_ {i} * Y_ {i}) = 0 $ ---- (5)

Nosotros (4) (5) en dos fórmula (1) que puede obtenerse

$ Argmin_ {w, b} = - \ frac {1} {2} | W | ^ {2} + \ sum_ {i = 1} ^ {N} \ alpha_ {i} $

(2) el gran problema

Debido a los problemas anteriores se han resuelto muy pequeño, por lo que el problema depende de la solución de grandes problemas

$ Argmax _ {\ alpha} (- \ frac {1} {2} | W | ^ {2} + \ sum_ {i = 1} ^ {N} \ alpha_ {i}) $

$ St \ alpha_ {i} \ ge 0, i = 1,2,3, ..., N $

También cambiar mi

$ Argmax _ {\ alpha} (\ frac {1} {2} | W | ^ {2} - \ sum_ {i = 1} ^ {N} \ alpha_ {i}) $

$ St \ alpha_ {i} \ ge 0, i = 1,2,3, ..., N $

$ \ Sum_ {i = 1} ^ {N} (\ alpha_ {i} * y_ {i}) = 0 $

Esta es la definición del problema dual.

Para el problema original para obtener hiperplano definido, muy simple, pero ¿cómo se define aquí, porque aquí es los parámetros de optimización $ \ alpha $

necesidades condición KKT a ser utilizados, w se define anteriormente, por la necesidad de encontrar un B $ \ alpha_ {i} $ puntos de muestra son no obtuve 0

 

referencia

[1] "métodos de aprendizaje estadístico," Li Hang

Supongo que te gusta

Origin www.cnblogs.com/lightblueme/p/12593752.html
Recomendado
Clasificación