máquinas de vectores de soporte (SVM) - Principio artículos

SVM Introducción

SVM (máquinas de vectores soporte, SVM) es un modelo binario que modelo básico se define en el máximo espacio de características espaciadas clasificadores lineales, perceptron distinguirlo del intervalo máximo; que comprende además el truco SVM kernel , por lo que es esencialmente un clasificador lineal. estrategia de aprendizaje de SVM es maximizar el intervalo, puede ser formalizada como la resolución de problemas de programación cuadrática convexa, también es equivalente a una regularización problema de minimización de la función de pérdida de bisagra. El algoritmo de aprendizaje SVM es un algoritmo de optimización para resolver programación cuadrática convexa.

 

principio algoritmo SVM

La idea básica de la SVM es resolver capaz de dividir correctamente el conjunto de datos de entrenamiento y máxima geométrica intervalo que separa hiperplano. Como se muestra a continuación,  [Oficial] es el hiperplano de separación para los conjuntos de datos linealmente separables, de modo que hay un número infinito de hiperplanos (es decir perceptron), pero el máximo geométrico intervalo que separa hiperplano es único.

Antes de derivación, con algunas definiciones. Suponiendo que un conjunto de datos de entrenamiento conjunto dado en un espacio de características

[Oficial]

En el que,  [Oficial] ,  [Oficial] ,  [Oficial] para la primera  [Oficial] característica vector  [Oficial] una etiqueta de clase, cuando es casos positivos es igual a 1; -1 cuando ejemplo negativo. Supóngase además que el conjunto de datos de entrenamiento es linealmente separables.

Geometría de los intervalos: para un conjunto dado de datos  [Oficial] y el hiperplano  [Oficial] , un hiperplano define los puntos de muestra en  [Oficial]el intervalo geométrica es

[Oficial]

mínimo Hyperplane espaciado geométrico de todos los puntos de muestra de

[Oficial]

De hecho, esta es la distancia desde el hiperplano a nuestro llamado vector de apoyo.

Sobre la base de la definición anterior, resolver el mayor problema dividiendo modelo SVM hiperplano se puede expresar como el siguiente problema de optimización con restricciones

[Oficial]

[Oficial]

Las limitaciones de ambos lados, mientras que divide  [Oficial] , para dar

[Oficial]

Debido a que  [Oficial] todos los escalares, por lo que en la expresión fin de la brevedad, por lo

[Oficial]

[Oficial]

obtener

[Oficial]

Y debido a la maximización  [Oficial] es equivalente a la maximización  [Oficial] , es equivalente a minimizar  [Oficial] (  [Oficial] hacia atrás después de forma concisa derivación, no afecta el resultado), por lo que el modelo SVM para resolver el mayor problema ha hiperplano de división se puede expresar como las siguientes limitaciones más optimización

[Oficial]

[Oficial]

Se trata de un problema de programación cuadrática convexa contiene restricciones de desigualdad, que podemos hacerlo (problema doble) el problema dual de su uso multiplicadores de Lagrange.

En primer lugar, vamos a tener las limitaciones de la función objetivo original convertidos a la nueva estructura sin restricciones función objetivo de Lagrange

[Oficial]

¿Qué  [Oficial] es el multiplicador de Lagrange, y  [Oficial] . Ahora hacemos

[Oficial]

Cuando el punto de muestra no satisface las condiciones de restricción, es decir, fuera del área solución factible:

[Oficial]

En este caso,  [Oficial] se establece en el infinito,  [Oficial] que es infinita.

Cuando este punto es completo se cumplen las restricciones, es decir, en la región factible:

[Oficial]

En este caso,  [Oficial] la propia función original. Por lo tanto, los dos casos se pueden combinar para conseguir nuestra nueva función objetivo

[Oficial]

Así que el problema es equivalente a la restricción original

[Oficial]

Mira nuestra nueva función objetivo, para buscar el valor máximo, y luego buscar un mínimo. En este caso, lo primero que tiene que hacer frente a la necesidad de resolver los parámetros  [Oficial] y  [Oficial] ecuaciones, que  [Oficial] es restricciones de desigualdad, este proceso de solución no es bueno hacerlo. Por lo tanto, tenemos que utilizar la dualidad de Lagrange, intercambiarán acerca de la posición mínima y máxima, por lo tanto se convierte en:

[Oficial]

Tener una  [Oficial] necesidad de cumplir con dos condiciones:

① problema de optimización es un problema de optimización convexa

② satisfacer las condiciones KKT

En primer lugar, el problema de optimización es un problema de optimización convexa es claramente, por lo tanto satisface una condición, y para cumplir las dos condiciones, es decir, los requisitos

[Oficial]

Con el fin de obtener una forma específica para resolver el problema dual, por lo que  [Oficial] el  [Oficial] y  [Oficial] el deflector es 0, disponible

[Oficial]

[Oficial]

Los anteriores dos ecuaciones en la función de Lagrange función objetivo, la eliminación  [Oficial] y  [Oficial] para dar

[Oficial]

[Oficial]

que
[Oficial]

Buscando  [Oficial] a  [Oficial] grande, es decir, el problema dual

[Oficial]

[Oficial]

[Oficial]

El objetivo de la fórmula un signo menos, se convertirá en la solución de un ACERCAMIENTO muy pequeña

[Oficial]

[Oficial]

[Oficial]

Nuestro problema de optimización se convierte ahora en el formulario de arriba. Para este problema, tenemos un algoritmo de optimización más eficiente, que la secuencia mínima de optimización (SMO) algoritmo. Aquí desplegado temporalmente más detalles sobre el uso de SMO algoritmo para resolver problemas de optimización, junto con la derivación se detalla próximo artículo.

Podemos obtener a través de este algoritmo de optimización  [Oficial] , y luego sobre la base de  [Oficial] que podemos resolver para  [Oficial] y  [Oficial] así lograr nuestro propósito original: "avión decisión" para encontrar el hiperplano que

Derivación supone que satisfacer lo anterior se establecen en las condiciones KKT, las condiciones KKT son como sigue

[Oficial]

Además, de acuerdo a la derivación anterior, se establecen las dos fórmulas siguientes

[Oficial]

[Oficial]

Se puede ver en  [Oficial] , por lo menos hay una  [Oficial] (reducción al absurdo para demostrar, si todos los ceros, la  [Oficial] contradicción), que  [Oficial] tiene

[Oficial]

Para que pueda obtener

[Oficial]

[Oficial]

Para cualquier muestra de entrenamiento  [Oficial] , siempre hay  [Oficial] o  [Oficial] . Si  [Oficial] , a continuación, la muestra no aparece en la fórmula final para resolver los parámetros del modelo. Si  [Oficial] , sin duda tiene  [Oficial] , que corresponde al punto máximo de la muestra se encuentra en los límites de intervalo, que es un vector de apoyo. Esto demuestra una propiedad importante de SVM: Después del entrenamiento, la mayoría de las muestras de entrenamiento no es necesario para retener el modelo final sólo admite relacionada con vectores.

Aquí los datos de entrenamiento se basan en la suposición de linealmente separables, pero los datos son linealmente separables ausencia casi completa de caso real, con el fin de resolver este problema, el concepto de "espaciador suave", es decir, permitir cierto punto no satisface la restricción

[Oficial]

El uso de la pérdida de la bisagra, el problema de optimización original es volver a escribir como

[Oficial]

[Oficial]

[Oficial]

En el que  [Oficial] las "variables de holgura",  [Oficial] es decir, una función de pérdida de bisagra. Cada muestra tiene una variable de holgura correspondiente caracterizar el grado de la muestra no satisface la restricción. [Oficial] Se llama el parámetro de penalización,  [Oficial] cuanto mayor sea el valor, mayor será el castigo para la clasificación. En consonancia con la idea de resolver separabilidad lineal, también aquí para obtener Lagrange con multiplicadores de Lagrange, y luego buscar su doble problema.

Sobre la base de la discusión anterior, podemos obtener un algoritmo de aprendizaje de máquina de soporte vectorial lineal es el siguiente:

Entrada: Conjunto de Entrenamiento de datos  en la que [Oficial]   ,;[Oficial][Oficial]

Salida: separar función de decisión hiperplano y clasificación

(1) Seleccionar el parámetro pena  [Oficial] , la construcción y la resolución de problemas de programación cuadrática convexas

[Oficial]

[Oficial]

[Oficial]

La solución óptima [Oficial]

(2) Cálculo

[Oficial]

Al seleccionar  [Oficial] uno de los componentes  [Oficial] satisface la condición  [Oficial] se calcula

[Oficial]

(3) separación de hiperplano requiere

[Oficial]

Clasificación función de decisión:

[Oficial]

 

principio no lineal SVM algoritmo

Por espacio de entrada problemas de clasificación no lineal, puede ser transformación no lineal en una dimensión lineal de un espacio de características de clasificación, aprendizaje lineal máquina de vectores de soporte en el espacio de características de alta dimensional. Debido a la doble problema de apoyo lineal de aprendizaje de máquinas de vectores, la función de la función y la decisión de clasificación objetivo sólo consiste en el producto interno entre los casos y ejemplos, no es necesario especificar explícitamente la transformación no lineal, pero con el reemplazo dentro de la función del núcleo entre las producto. Función Kernel, el producto interno entre dos instancias después de pasar a través de una conversión no lineal. Específicamente,  [Oficial] una función, o un núcleo definida positiva, significa que hay un mapeo del espacio de entrada a la función de espacio  [Oficial] , un espacio de entrada arbitrario  [Oficial] , hay

[Oficial]

problema doble en el aprendizaje lineal máquina de soporte vectorial, con una función de núcleo  [Oficial] dentro de un producto alternativo, se resuelven es la máquina de vectores de soporte no lineal

[Oficial]

Sobre la base de la discusión anterior, podemos obtener soporte vectorial algoritmo de aprendizaje automático no lineal es el siguiente:

Entrada: Conjunto de Entrenamiento de datos  en la que [Oficial]   ,;[Oficial][Oficial]

Salida: separar función de decisión hiperplano y clasificación

(1) la selección de una función adecuada kernel  [Oficial] y parámetro de penalización  [Oficial] , la configuración y de programación cuadrática Convex

[Oficial]

[Oficial]

[Oficial]

La solución óptima [Oficial]

(2) Cálculo

Al seleccionar  [Oficial] uno de los componentes  [Oficial] satisface la condición  [Oficial] se calcula

[Oficial]

función de decisión (3) Clasificación:

[Oficial]

 

Introducir una función básica común - Gaussian kernel

[Oficial]

Correspondiente a la función de base radial es un clasificador SVM Gauss, en este caso, la función de decisión de clasificación

[Oficial]

 

referencia

[1] "métodos de aprendizaje estadístico" Lee Hang

[2] "aprendizaje automático" Zhou Zhihua

[3] un pitón 3 "máquina de aprendizaje reales" notas de estudio (VIII): Shredded lineal de apoyo principales de máquinas de vectores artículos de SVM  Jack-Cui

[4] la comprensión en profundidad de método multiplicador de Lagrange (Multiplicador de Lagrange) y las condiciones KKT

[5] Apoyo Vector Machine Introducción populares (SVM apreciará que la de tres estados)

[6] máquinas de vectores soporte para la Clasificación

Supongo que te gusta

Origin www.cnblogs.com/klausage/p/12575064.html
Recomendado
Clasificación