Resumo de todas as notas: resumo das notas de leitura para métodos de aprendizagem estatística
Download grátis de PDF: "Métodos de aprendizagem estatística (segunda edição)"
Máquinas de vetores de suporte (SVM) é um modelo de classificação de duas classes. Seu modelo básico é um classificador linear com o maior intervalo definido no espaço de recursos.O maior intervalo o torna diferente do perceptron; a máquina de vetor de suporte também inclui técnicas de kernel, o que o torna um classificador não linear substancial.
Para o conteúdo geral deste artigo, consulte as Notas da série de derivação do quadro branco (6) - Máquina de vetores de suporte e Notas da série de derivação do quadro branco (7) Métodos nucleares
1. Máquina de vetor de suporte linearmente separável e maximização de intervalo rígido
Máquina de vetores de suporte é encontrar o maior hiperplano de separação.
Construir um problema de otimização restrito e resolvê-lo
{minw, b 1 2 w T ws. t. yi (w T xi + b) ≥ 1, i = 1, 2, ⋯, N \ left \ {\ begin {matrix} \ underset {w, b} {min} \ frac {1} {2} w ^ { T} w \\ st \; y_ {i} (w ^ {T} x_ {i} + b) \ geq 1, i = 1,2, \ cdots, N \ end {matriz} \ direita.{ w , bmim21WT ws . t .eEu( wT xEu+b )≥1 ,Eu=1 ,2 ,⋯,N
Resolva para obter o ótimo w ∗, b ∗ w ^ *, b ^ *W∗ ,b∗
para obter o hiperplano de separaçãow ∗ T ⋅ x + b ∗ = 0 {w ^ *} ^ T \ cdot x + b ^ * = 0W∗T⋅x+b∗=0 e a função de decisão de classificaçãof (x) = sinal (w ∗ T ⋅ x + b ∗) f (x) = sinal ((w ^ *) ^ T \ cdot x + b ^ *)f ( x )=s i g n ( w∗T⋅x+b∗ )
O hiperplano de separação máxima do conjunto de dados de treinamento linearmente separável existe e é único.
Você pode usar o método duplo para encontrar a condição KKT.
2. Máquina de vetor de suporte linear e maximização de intervalo suave
Muitas vezes os dados têm algumas peculiaridades. Depois de remover esses pontos, os dados são linearmente separáveis, o que significa que não existe tal hiperplano para separar os dados em duas partes, então precisamos introduzir uma folga ξ i ≥ 0 \ xi_i \ ge0XEu≥0 , então a condição de restrição torna-se yi (w T ⋅ xi + b) ≥ 1 - ξ i y_i (w ^ T \ cdot x_i + b) \ ge1- \ xi_ieEu( wT⋅xEu+b )≥1-XEu
Portanto, 1 2 w T w \ frac12w ^ Tw21WT w变成1 2 w T w + C ∑ i = 1 N ξ i \ frac12w ^ Tw + C \ sum_ {i = 1} ^ N \ xi_i21WT w+Ci = 1∑NXEuOnde C> 0 C> 0C>0 é o parâmetro de penalidade.
3. Máquina de vetor de suporte não linear e função de kernel
Transforme problemas de baixa dimensão em dimensionalidades superiores para segmentação.
As funções do kernel comumente usadas são:
- Kernel linear
- Função de kernel polinomial
- Função de kernel gaussiana
- Função Laplace kernel
- função do kernel sigmóide
Quatro, algoritmo de otimização de sequência mínima
O portal do próximo capítulo: método de aprendizagem estatística lendo notas (8) -método de promoção