Notas de estudo de regressão

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html notas de estudo do curso

Regressão: A tradução literal parece ser regressão. Acho que uma forma mais direta de dizer isso é previsão, que é prever dados futuros encontrando uma função que se ajuste aos dados históricos.

  1. Aprendizagem semissupervisionada : alguns dados rotulados e principalmente dados não rotulados. Aprendizagem Supervisionada: Assim, os dados são rotulados.
  2. Gradiente é um vetor coluna cujo valor é o diferencial parcial da função de perda.
  3. Um modelo simples de regressão é y = wx+b, que é quase igual à regressão linear aprendida no ensino médio. No entanto, w, b e x aqui não são números, mas matrizes. Modelos mais complexos podem ser quadráticos, cúbicos, etc.
  4. Um modelo mais complexo pode ser melhor no treinamento de dados, mas não necessariamente no teste de dados, o que pode causar overfitting.
  5. regularização . A função de perda adiciona w, esperando que quanto menor for melhor, então y será mais suave e insensível ao ruído.
  6. Um modelo simples é menos afetado pelos dados, mas pode ter um viés (erro) maior. Modelos complexos podem conter mais situações, mas são mais sensíveis ao ruído.
  7. Modelos simples podem ser inadequados. As soluções incluem: adicionar mais recursos como entrada; escolher um modelo mais complexo.
  8. Modelos complexos podem ser superajustados (o efeito é bom nos dados de treinamento, mas o efeito nos dados de teste é ruim).A solução é: mais dados; regularização, adicionando w à função de perda, esperando que quanto menor w, melhor.
  9. Quando você não sabe qual modelo escolher , não deve escolher diretamente um conjunto de testes com um pequeno erro do modelo, pois isso fará com que o erro seja afetado pelo ruído deste conjunto de testes, resultando em um valor maior (real). vida) conjunto de testes. O efeito é muito pobre. O conjunto de treinamento deve ser dividido em um conjunto de treinamento e um conjunto de validação. Use o conjunto de validação para selecionar o modelo. Selecione o modelo e, em seguida, use todo o conjunto de treinamento para treinamento.
  10. Portanto, o conjunto de testes serve para medir o erro, não para selecionar um modelo.
  11. Se você está preocupado com o fato de o viés do conjunto de validação ser grande, então a validação cruzada, por exemplo, divide o conjunto de treinamento em três partes, faz um conjunto de validação para cada parte e calcula o erro médio para selecionar o modelo.
  12. taxa de aprendizagem . Se for muito pequeno, o valor da função de perda diminuirá lentamente; se for muito grande, diminuirá rapidamente no início, depois se estabilizará e nunca diminuirá; se for muito grande, poderá primeiro diminuir e depois continuar a diminuir. aumentar.
  13. A taxa de aprendizagem deve ser reduzida gradualmente. Por exemplo, use o método adagrad.
  14. Para acelerar a função de perda, você só pode usar o valor de uma amostra para calcular a função de perda, que é mais eficiente.
  15. Dimensionamento de recursos . Quando as distribuições de dois recursos são diferentes, suas distribuições devem ser feitas o mais semelhantes possível, para que o impacto em y seja semelhante e a atualização dos parâmetros seja mais eficiente. Imagine duas características e desenhe os contornos da perda. Quando a distribuição é semelhante, os contornos das perdas são círculos, portanto sempre irão para o centro do círculo. Se for uma elipse, não está voltada para o centro do círculo.
  16. A regressão pode não necessariamente encontrar o valor ideal, porque a função de perda pode parar na inclinação de 0.

P:
1. Se o modelo for linear, deve ser o valor ótimo, pois sua função de perda é uma função quadrática, com apenas um ponto com inclinação zero e deve ser o valor mínimo?
2.

おすすめ

転載: blog.csdn.net/ZhaoBuDaoFangXia/article/details/79500614