Máquina de Notas de Aprendizagem: overfitting

overfitting

Se nós temos um monte de recursos, temos aprendendo suposições pode muito bem ser capaz de adaptar-se ao conjunto de treinamento (função de custo pode ser quase zero), mas não pode ser estendido para os novos dados.
Abaixo está um exemplo de um retorno para o problema:


O primeiro modelo é um modelo linear, de baixo ajuste, não é bem adaptado para o nosso conjunto de treino, o terceiro modelo é o modelo de uma quarta potência, o excesso de montagem, que poderia muito bem adaptados ao nosso conjunto de treino mas quando uma nova variáveis de entrada para prever pode ser ineficaz; meio modelo parece ser o mais apropriado.
Classificação problemas também existem tais problemas:


O problema é que, se tivéssemos encontrado uma questão de montagem, o que devo fazer?

1. Minimizar o número de recursos selecionados, descartar alguns não podem ajudar-nos a característica previsão correta.
Você pode selecionar manualmente que possui para reter
ou usando algum algoritmo para ajuda modelo de seleção (por exemplo, a PCA)
2. regularização.
Guarde todos os recursos, mas reduzir o tamanho do parâmetro (magnitude).

 

função de custo normalizada
acima de regressão, se o nosso modelo é:


Decidimos reduzir o tamanho da θ3 e θ4, nós temos que fazer é modificar a função de custo, onde θ3 e θ4 definir um pouco punição. Como mostrado abaixo, tais como a adição de um grande número 1000,10000 na sua frente. Para fazer isso, nós tentamos também precisa punir isto em conta quando minimizar o custo e eventualmente selecionar um número menor de θ3 e [theta] 4 . A função de custo modificado como se segue:


Selecionados por tais θ3 uma função de custo e impacto θ4 sobre os resultados previstos seria muito menor do que antes .
Se nós temos um monte de recursos, não sabemos quais desses recursos para nos punir, vamos punir todos os recursos, e fazer o software de otimização de função de custo para selecionar o grau dessas sanções. Este resultado é relativamente simples suposições podem evitar problema over-fitting:


Em que λ também é conhecido como parâmetros de normalização (regularização de parâmetros).
Nota: Por convenção, nós fazemos punição não θ0.
Após o modelo de processo de normalização e o modelo original da comparação pode, como mostrado abaixo:

Se os parâmetros de normalização seleccionados λ é demasiado grande, todos os parâmetros são minimizados, o que resulta no caso modelo torna-se hθ = linha vermelha mostrada na figura acima (x) θ0 isto é, resultando num baixo grau de ajuste.

 

Normalizada regressão linear
normalizado função de custo linear de regressão é:


Se nós queremos usar gradiente descendente emissão da ordem de minimizar esta função de custo, porque nós não punir θ0 θ0 que não está a ser normalizada , de modo que o algoritmo gradiente de descida será dividida em duas situações:

O algoritmo acima para j = 1,2, ..., n, o tempo de actualização a equação é ajustado pode ser obtido:
 Como pode ser visto, a regressão linear de uma mudança do algoritmo gradiente descendente normalizada é que, cada vez que a actualização algoritmo original fazer uma redução adicional no valor de valores q em uma base regular.
 Também estamos usando as equações normais para resolver para o modelo de regressão linear normalizado, o método é como se segue:

Tamanho da matriz na fig. 1 * é n- + + n-. 1 .

Sem prova é dada quando λ é maior do que zero, é invertida.

 

regressão logística normalizada

Também para regressão logística, temos que aumentar a função de custo é uma normalizados rendimentos de expressão:

 Para minimizar esta função de custo, a derivação, o algoritmo de gradiente descendente é obtido:

Nota: Parece o mesmo que a regressão linear, mas sei hθ (x) = g (θTX), tão diferente da regressão linear.
 

 

Publicado 98 artigos originais · ganhou elogios 124 · vê 30000 +

Acho que você gosta

Origin blog.csdn.net/lyc0424/article/details/104821999
Recomendado
Clasificación