Método de aprendizagem estatística lendo notas (7) - máquina de vetor de suporte

Resumo de todas as notas: resumo das notas de leitura para métodos de aprendizagem estatística

Download grátis de PDF: "Métodos de aprendizagem estatística (segunda edição)"

Máquinas de vetores de suporte (SVM) é um modelo de classificação de duas classes. Seu modelo básico é um classificador linear com o maior intervalo definido no espaço de recursos.O maior intervalo o torna diferente do perceptron; a máquina de vetor de suporte também inclui técnicas de kernel, o que o torna um classificador não linear substancial.

Para o conteúdo geral deste artigo, consulte as Notas da série de derivação do quadro branco (6) - Máquina de vetores de suporte e Notas da série de derivação do quadro branco (7) Métodos nucleares

1. Máquina de vetor de suporte linearmente separável e maximização de intervalo rígido

Máquina de vetores de suporte é encontrar o maior hiperplano de separação.
Construir um problema de otimização restrito e resolvê-lo

{minw, b 1 2 w T ws. t. yi (w T xi + b) ≥ 1, i = 1, 2, ⋯, N \ left \ {\ begin {matrix} \ underset {w, b} {min} \ frac {1} {2} w ^ { T} w \\ st \; y_ {i} (w ^ {T} x_ {i} + b) \ geq 1, i = 1,2, \ cdots, N \ end {matriz} \ direita.{ w , bmim21WT ws . t .eEu( wT xEu+b )1 ,Eu=1 ,2 ,,N

Resolva para obter o ótimo w ∗, b ∗ w ^ *, b ^ *W ,b
para obter o hiperplano de separaçãow ∗ T ⋅ x + b ∗ = 0 {w ^ *} ^ T \ cdot x + b ^ * = 0WTx+b=0 e a função de decisão de classificaçãof (x) = sinal (w ∗ T ⋅ x + b ∗) f (x) = sinal ((w ^ *) ^ T \ cdot x + b ^ *)f ( x )=s i g n ( wTx+b )
O hiperplano de separação máxima do conjunto de dados de treinamento linearmente separável existe e é único.

Você pode usar o método duplo para encontrar a condição KKT.

2. Máquina de vetor de suporte linear e maximização de intervalo suave

Muitas vezes os dados têm algumas peculiaridades. Depois de remover esses pontos, os dados são linearmente separáveis, o que significa que não existe tal hiperplano para separar os dados em duas partes, então precisamos introduzir uma folga ξ i ≥ 0 \ xi_i \ ge0XEu0 , então a condição de restrição torna-se yi (w T ⋅ xi + b) ≥ 1 - ξ i y_i (w ^ T \ cdot x_i + b) \ ge1- \ xi_ieEu( wTxEu+b )1-XEu
Portanto, 1 2 w T w \ frac12w ^ Tw21WT w变成1 2 w T w + C ∑ i = 1 N ξ i \ frac12w ^ Tw + C \ sum_ {i = 1} ^ N \ xi_i21WT w+Ci = 1NXEuOnde C> 0 C> 0C>0 é o parâmetro de penalidade.

3. Máquina de vetor de suporte não linear e função de kernel

Transforme problemas de baixa dimensão em dimensionalidades superiores para segmentação.

As funções do kernel comumente usadas são:

  1. Kernel linear
  2. Função de kernel polinomial
  3. Função de kernel gaussiana
  4. Função Laplace kernel
  5. função do kernel sigmóide

Insira a descrição da imagem aqui

Quatro, algoritmo de otimização de sequência mínima

Insira a descrição da imagem aqui

O portal do próximo capítulo: método de aprendizagem estatística lendo notas (8) -método de promoção

Acho que você gosta

Origin blog.csdn.net/qq_41485273/article/details/112789207
Recomendado
Clasificación