Andrew Ng aprendizagem de máquina (X) - diagnóstico, viés e variância devido à montagem e sobre-montagem

Nas primeiras semanas de aulas aprendemos aprendizado supervisionado de regressão linear, regressão logística, redes neurais. Recordando o trabalho do curso, todos os dados da amostra são usados ​​para treinar o modelo. Validação do modelo, apenas os resultados do modelo com os dados comparar os resultados parecem precisão direita. Este método de treinamento é correto? taxa correta pode ser usado como critério para avaliar o modelo? Você vai aprender como avaliar nosso modelo, bem como a forma de tomar estratégias de melhoria corretas e eficazes.

Clique no vídeo cursos você será capaz de aprender continuamente Ng é claro, o código Python está no trabalho do curso foi colocado no Github, você pode clicar sobre o código do curso para Github Vista (Github não podem acessar, então você pode clicar Codificação vista), e erros no código Bem-vindo à melhoria observou.

melhores estratégias
para prever função, muitas vezes usamos vários meios para melhorar:

Os dados recolhidos mais amostras
para reduzir o número de recursos, vá até a menos que as principais características
da introdução de características mais relevantes
características polinomiais
reduzir os regularização parâmetro λλ
parâmetros de regularização aumento λλ
Andrew Ng disse que tinha visto um monte de desenvolvedores cegamente uso de melhoria estratégia, para a qual passou muito tempo e esforço, sem muito efeito. Então, precisamos de alguma forma para nos ajudar a escolher a estratégia certa.

Particionamento do conjunto de dados
utilizado para avaliar o modelo, o conjunto de dados que geralmente dividido em três partes, 60% a 60% do conjunto de treino, 20% do conjunto de validação cruzada de 20% e 20% a 20% do conjunto de teste, e usando o erro como o Modelo de avaliação sobre a forma de estes conjuntos, uma função de custo erro o mesmo que o (função de erro de regressão linear abaixo) anterior.

Js ([teta]) = = 1ms 12msΣi (H?. (X (I) S) -Y (I) S) 2 (S = Comboio, CV, Teste)
js ([teta]) = = 1ms 12msΣi (H?. (XS (i)) - ys (i )) 2 (s = trem, cv, test)
no conjunto dividida, usamos um conjunto de treinamento para treinar os parâmetros θθ, conjuntos de validação cruzada para selecionar o modelo (tais como o uso de quantas vezes polinomial característica), utilizando o conjunto de ensaio para avaliar a capacidade de previsão do modelo.

Variância e desvio
quando o mau desempenho do nosso modelo, geralmente há dois problemas, um é problema de alta polarização, o outro é um problema de alta variância. Eles ajudar a identificar maneiras de escolher a otimização direita, então vamos olhar para o significado do desvio e variância.

  • Desvio: diferença entre as expectativas e os resultados reais da amostra descrito saídas do modelo.
  • Variação: Modelo estabilidade Descrição de saída para um determinado valor.
    Aqui Insert Picture Descrição

Como o tiro, desvio tiro descrever a nossa total se desviou da nossa meta, e se a variância direito descreve o tiroteio. Vamos conjunto através da formação e curva de erro de validação cruzada em cada conjunto caso para intuitivamente compreender o significado do desvio e de alta variância é alta.

Para a regressão polinomial, quando o número de baixo selecionado, o nosso conjunto de treinamento e erro de erro conjunto de validação cruzada seria muito; quando o número apenas selecionado, o conjunto de treinamento e erro de erro conjunto de validação cruzada é muito pequena, quando o número é muito grande produto vontade sobre-encaixe, embora o erro é pequeno conjunto de treino, mas o erro conjunto de validação cruzada seria grande (diagrama inferior).
Aqui Insert Picture Descrição
Assim, podemos calcular Jtrain (θ) Jtrain (θ) e JCV (θ) JCV (θ), se eles também muito grande, está passando por um problema de alta polarização, e JCV (θ) JCV (θ) do que Jtrain (θ) Jtrain (θ) é muito maior, ele está passando por um problema de alta variância.

Para parâmetro problema regularização alta variância, usando os mesmos métodos analíticos, quando o parâmetro é pequeno propenso a fenômeno over-fitting, que é. E propensas ao fenômeno de parâmetro encaixe pobres é relativamente grande, ou seja, alta problema viés.
Aqui Insert Picture Descrição

A curva de aprendizado
se você deseja verificar se o seu trabalho ou algoritmo de aprendizagem para melhorar o desempenho do algoritmo, a curva de aprendizagem é uma ferramenta muito intuitiva e eficaz. O eixo horizontal representa o número de amostras da curva de aprendizagem, o eixo vertical representa o conjunto de treino e erro conjunto de validação cruzada. Então, no início, devido ao pequeno número de amostras, Jtrain (θ) Jtrain (θ ) quase nada, mas JCV (θ) JCV (θ) é muito grande. À medida que o número de amostras, Jtrain (θ) Jtrain (θ ) está a aumentar, enquanto JCV (q) JCV (θ) aumenta à medida que o melhor ajuste dos dados de formação e, portanto, diminuir. Portanto, a curva de aprendizagem olhada como mostrado a seguir:
Aqui Insert Picture Descrição
No caso de elevado desvio, Jtrain (θ) Jtrain (θ ) com JCV (θ) JCV (θ) tem sido muito perto, mas um grande erro. Desta vez cegamente aumentar o número de amostras não dá o desempenho do algoritmo traz melhorado.
Aqui Insert Picture Descrição
No caso de alta variância, Jtrain (θ) Jtrain (θ ) de erro é pequeno, JCV (θ) JCV (θ ) é relativamente grande, então mais amostras de coleta é susceptível de trazer ajuda.
Aqui Insert Picture Descrição

Resumo
Com estas ferramentas analíticas, será capaz de chegar a nossas estratégias de melhoria sob o cenário:

[Alta variância] para recolher mais amostras de dados
[alta variância], reduzindo o número de recursos, para remover características não essenciais
[desvio] alta introduzindo funcionalidades mais relevantes
[desvio alta] polinomiais característica
[alta desvio] reduzida parâmetro de regularização λλ
[alta variância] aumentar a λ parâmetro de regularização

Referências Andrew Ng Machine Learning: variância e desvio de
09 aprendizagem de máquina (Andrew Ng): Diagnóstico Machine Learning

Publicado 80 artigos originais · Louvor obteve 140 · vista 640 000 +

Acho que você gosta

Origin blog.csdn.net/linjpg/article/details/104126767
Recomendado
Clasificación