http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html notas de estudo do curso
Regressão: A tradução literal parece ser regressão. Acho que uma forma mais direta de dizer isso é previsão, que é prever dados futuros encontrando uma função que se ajuste aos dados históricos.
- Aprendizagem semissupervisionada : alguns dados rotulados e principalmente dados não rotulados. Aprendizagem Supervisionada: Assim, os dados são rotulados.
- Gradiente é um vetor coluna cujo valor é o diferencial parcial da função de perda.
- Um modelo simples de regressão é y = wx+b, que é quase igual à regressão linear aprendida no ensino médio. No entanto, w, b e x aqui não são números, mas matrizes. Modelos mais complexos podem ser quadráticos, cúbicos, etc.
- Um modelo mais complexo pode ser melhor no treinamento de dados, mas não necessariamente no teste de dados, o que pode causar overfitting.
- regularização . A função de perda adiciona w, esperando que quanto menor for melhor, então y será mais suave e insensível ao ruído.
- Um modelo simples é menos afetado pelos dados, mas pode ter um viés (erro) maior. Modelos complexos podem conter mais situações, mas são mais sensíveis ao ruído.
- Modelos simples podem ser inadequados. As soluções incluem: adicionar mais recursos como entrada; escolher um modelo mais complexo.
- Modelos complexos podem ser superajustados (o efeito é bom nos dados de treinamento, mas o efeito nos dados de teste é ruim).A solução é: mais dados; regularização, adicionando w à função de perda, esperando que quanto menor w, melhor.
- Quando você não sabe qual modelo escolher , não deve escolher diretamente um conjunto de testes com um pequeno erro do modelo, pois isso fará com que o erro seja afetado pelo ruído deste conjunto de testes, resultando em um valor maior (real). vida) conjunto de testes. O efeito é muito pobre. O conjunto de treinamento deve ser dividido em um conjunto de treinamento e um conjunto de validação. Use o conjunto de validação para selecionar o modelo. Selecione o modelo e, em seguida, use todo o conjunto de treinamento para treinamento.
- Portanto, o conjunto de testes serve para medir o erro, não para selecionar um modelo.
- Se você está preocupado com o fato de o viés do conjunto de validação ser grande, então a validação cruzada, por exemplo, divide o conjunto de treinamento em três partes, faz um conjunto de validação para cada parte e calcula o erro médio para selecionar o modelo.
- taxa de aprendizagem . Se for muito pequeno, o valor da função de perda diminuirá lentamente; se for muito grande, diminuirá rapidamente no início, depois se estabilizará e nunca diminuirá; se for muito grande, poderá primeiro diminuir e depois continuar a diminuir. aumentar.
- A taxa de aprendizagem deve ser reduzida gradualmente. Por exemplo, use o método adagrad.
- Para acelerar a função de perda, você só pode usar o valor de uma amostra para calcular a função de perda, que é mais eficiente.
- Dimensionamento de recursos . Quando as distribuições de dois recursos são diferentes, suas distribuições devem ser feitas o mais semelhantes possível, para que o impacto em y seja semelhante e a atualização dos parâmetros seja mais eficiente. Imagine duas características e desenhe os contornos da perda. Quando a distribuição é semelhante, os contornos das perdas são círculos, portanto sempre irão para o centro do círculo. Se for uma elipse, não está voltada para o centro do círculo.
- A regressão pode não necessariamente encontrar o valor ideal, porque a função de perda pode parar na inclinação de 0.
P:
1. Se o modelo for linear, deve ser o valor ótimo, pois sua função de perda é uma função quadrática, com apenas um ponto com inclinação zero e deve ser o valor mínimo?
2.