Análise de regressão linear de aprendizado de máquina

Forma básica de modelo linear

Predições de amostra por meio de combinações lineares de atributos:

f (x) = w 1 x 1 + w 2 x 2 +. . . + wdxd + bf (x) = w_1x_1 + w_2x_2 + ... + w_dx_d + bf ( x )=C1x1+C2x2+. . .+Cdxd+b

Escrito na forma de um vetor:

f (x) = w T x + bf (x) = w ^ Tx + b f ( x )=CT x+b

w representa o peso de cada atributo, b é o valor de polarização, x é o vetor de amostra e f (x) é o valor previsto

Regressão linear

A análise de regressão é uma modelagem preditiva que estuda a relação entre as variáveis ​​independentes e as variáveis ​​dependentes

Descrição matemática :

Coleção Yi I {(xi, yi), i = 1, ..., N}, x ∈ RP, yi ∈ R \ {(x_i, y_i), i = 1, ..., n \}, x ∈ R ^ P, y_i ∈ R{ ( xEu,YEu) ,eu=1 ,. . . ,n } ,xRP ,YEuR

其中yi = f (xi) + ϵ i y_i = f (x_i) + ϵ_iYEu=f ( xEu)+ϵEu

ϵ i ϵ_i ϵEuMeios para y_i yiYEu Erro de previsão

Resolvendo os parâmetros w e b

De modo geral, queremos minimizar o erro quadrático médio do valor previsto, e os parâmetros neste momento são os parâmetros que desejamos

Função de custo:

J (w, b) = ∑ i = 1 n ϵ i 2 = ∑ i = 1 n (yi - f (xi)) 2 J (w, b) = ∑_ {i = 1} ^ nϵ ^ 2_i = ∑ ^ n_ {i = 1} (y_i - f (x_i)) ^ 2 J ( w ,b )=i = 1nϵeu2=i = 1n( eEu- f ( xEu) )2

Os modelos de regressão linear são treinados usando o menor método de multiplicação.

Critério dos mínimos quadrados : a soma dos quadrados dos resíduos de predição de cada amostra de treinamento é a menor.

Ao minimizar a função de custo, w e b são obtidos:

[w ∗, b ∗] = argmin J (w, b) [w ^ *, b ^ *] = argmin ~ J (w, b) [ w ,b ]=a r g m i n J ( w , b )

Métodos comuns de resolução de parâmetros

1. Método analítico

Encontre a derivada parcial da função e, em seguida, defina a derivada parcial como 0 (mas você pode encontrar o caso em que a matriz não é invertível).

Adequado para pequenas amostras

2. Método de otimização numérica (método de gradiente descendente, etc.)

Solução iterativa usando métodos como gradiente descendente

Adequado para situações com um grande tamanho de amostra

Algoritmos de lote e minilote

1. Método de descida gradiente em lote: use todas as amostras de treinamento para estimar o gradiente para o treinamento, o que requer uma grande quantidade de cálculos

2. Método de descida gradiente de minilote: use amostras parciais de treinamento para estimar o gradiente para treinamento

3. Método de descida gradiente estocástico: cada vez que uma amostra de treinamento é retirada de um conjunto de treinamento fixo para estimar o gradiente para treinamento.

Regularização (penalidade de norma de parâmetro)

Comparando a função de custo JJJ adiciona uma penalidade de norma de parâmetro para limitar a capacidade de aprendizagem do modelo. A função de custo geral após a regularização é: J ′ (w, b) = J (w, b) + λ Ω (w) J ^ {'} (w, b) = J (w, b) + λΩ (w)J (W,b )=J ( w ,b )+λ Ω ( w )

Ω (w) representa o item de penalidade

Regularização L1 (regressão de laço) : introduzir uma penalidade de norma de parâmetros na função de custo,

Regularização L2 (regressão de crista) : introduza a penalidade de duas normas de parâmetros na função de custo,

Acho que você gosta

Origin blog.csdn.net/weixin_43772166/article/details/109576924
Recomendado
Clasificación