Artigo Diretório
Forma básica de modelo linear
Predições de amostra por meio de combinações lineares de atributos:
f (x) = w 1 x 1 + w 2 x 2 +. . . + wdxd + bf (x) = w_1x_1 + w_2x_2 + ... + w_dx_d + bf ( x )=C1x1+C2x2+. . .+Cdxd+b
Escrito na forma de um vetor:
f (x) = w T x + bf (x) = w ^ Tx + b f ( x )=CT x+b
w representa o peso de cada atributo, b é o valor de polarização, x é o vetor de amostra e f (x) é o valor previsto
Regressão linear
A análise de regressão é uma modelagem preditiva que estuda a relação entre as variáveis independentes e as variáveis dependentes
Descrição matemática :
Coleção Yi I {(xi, yi), i = 1, ..., N}, x ∈ RP, yi ∈ R \ {(x_i, y_i), i = 1, ..., n \}, x ∈ R ^ P, y_i ∈ R{ ( xEu,YEu) ,eu=1 ,. . . ,n } ,x∈RP ,YEu∈R
其中yi = f (xi) + ϵ i y_i = f (x_i) + ϵ_iYEu=f ( xEu)+ϵEu
ϵ i ϵ_i ϵEuMeios para y_i yiYEu Erro de previsão
Resolvendo os parâmetros w e b
De modo geral, queremos minimizar o erro quadrático médio do valor previsto, e os parâmetros neste momento são os parâmetros que desejamos
Função de custo:
J (w, b) = ∑ i = 1 n ϵ i 2 = ∑ i = 1 n (yi - f (xi)) 2 J (w, b) = ∑_ {i = 1} ^ nϵ ^ 2_i = ∑ ^ n_ {i = 1} (y_i - f (x_i)) ^ 2 J ( w ,b )=i = 1∑nϵeu2=i = 1∑n( eEu- f ( xEu) )2
Os modelos de regressão linear são treinados usando o menor método de multiplicação.
Critério dos mínimos quadrados : a soma dos quadrados dos resíduos de predição de cada amostra de treinamento é a menor.
Ao minimizar a função de custo, w e b são obtidos:
[w ∗, b ∗] = argmin J (w, b) [w ^ *, b ^ *] = argmin ~ J (w, b) [ w∗ ,b∗ ]=a r g m i n J ( w , b )
Métodos comuns de resolução de parâmetros
1. Método analítico
Encontre a derivada parcial da função e, em seguida, defina a derivada parcial como 0 (mas você pode encontrar o caso em que a matriz não é invertível).
Adequado para pequenas amostras
2. Método de otimização numérica (método de gradiente descendente, etc.)
Solução iterativa usando métodos como gradiente descendente
Adequado para situações com um grande tamanho de amostra
Algoritmos de lote e minilote
1. Método de descida gradiente em lote: use todas as amostras de treinamento para estimar o gradiente para o treinamento, o que requer uma grande quantidade de cálculos
2. Método de descida gradiente de minilote: use amostras parciais de treinamento para estimar o gradiente para treinamento
3. Método de descida gradiente estocástico: cada vez que uma amostra de treinamento é retirada de um conjunto de treinamento fixo para estimar o gradiente para treinamento.
Regularização (penalidade de norma de parâmetro)
Comparando a função de custo JJJ adiciona uma penalidade de norma de parâmetro para limitar a capacidade de aprendizagem do modelo. A função de custo geral após a regularização é: J ′ (w, b) = J (w, b) + λ Ω (w) J ^ {'} (w, b) = J (w, b) + λΩ (w)J′ (W,b )=J ( w ,b )+λ Ω ( w )
Ω (w) representa o item de penalidade
Regularização L1 (regressão de laço) : introduzir uma penalidade de norma de parâmetros na função de custo,
Regularização L2 (regressão de crista) : introduza a penalidade de duas normas de parâmetros na função de custo,