NTU Li Hongyi Machine Learning 2020 Notas do estudo (2): Regressão e sobreajuste

Prefácio


        O valor de saída do modelo de regressão é um número. Previsão de estoque, previsão PM2.5 , previsão de ângulo do volante em direção autônoma e previsão de valor de CP após a evolução do Pokémon são exemplos de sua aplicação. O professor do curso ainda está usando seu Pokémon habitual como demonstração. Dentro de um determinado intervalo, o aumento da complexidade do modelo pode melhorar o desempenho do modelo, mas, nesse intervalo, haverá ajuste excessivo. A regularização pode reduzir a possibilidade de sobreajuste.


Regressão linear


        O objetivo dessa regressão é encontrar uma função.Introduzimos alguns valores de atributo de Pokémon antes da evolução, incluindo tipo, peso, valor de CP etc., e então podemos prever melhor seu valor de CP evoluído (foto citada pelo professor PPT)

                                                      

  • Modelo linear

        Modelo linear, isto é, a função é linear, a expressão unificada é a seguinte. Onde x é a entrada, ou seja, seus recursos, w são os pesos eb é a polarização

                                                                                          

        Se todas as entradas x forem empilhadas na matriz X, todas as W e Y serão empilhadas nos vetores de coluna W e Y. Em seguida, adicione um elemento com o valor 1 no início de cada linha de X e estenda W por um elemento; a fórmula acima se tornará:

                                                                                                  

        Substituir o loop pela multiplicação de matrizes pode melhorar a eficiência. Quando há apenas uma entrada, o modelo linear é a fórmula geral da função linear unária com a qual estamos familiarizados. Ou seja, y = b + w   x cp. Agora existem dez dados de treinamento, a imagem vem daqui

                                                            

  • Função de perda

        A função de perda é uma função da função e é usada para medir a qualidade dos parâmetros. Aqui, usamos uma função L (w, b) semelhante ao erro quadrático médio da raiz para otimizar nossa função de regressão linear, que representa a soma do quadrado da diferença entre todas as saídas previstas e a resposta correta. .

                                                                     

        Expressão da matriz: 

                                                                                        

  •  Modelo de treinamento - encontre a melhor função

        Objetivo: Minimizar a função de perda

        Método: descida gradiente

        Condição: Perda diferenciável

        A figura da função de perda na situação unidimensional é mostrada na figura a seguir (citada no PPT do professor): A sensação intuitiva é de que ela deve cair em uma posição (w0). Se o gradiente em w0 (a inclinação tangente também está em uma dimensão) é negativo, significa que o aumento de w pode reduzir a perda, se o gradiente for positivo, significa que a redução de w pode reduzir a perda, pode-se observar que a direção da mudança de w é o gradiente Inverter, portanto, a fórmula de descida do gradiente subtrai o gradiente.

                                          

        Fórmula de descida do gradiente: o tamanho da etapa para atualização dos parâmetros é determinado pela taxa de aprendizado e pelo gradiente atual, n representa a enésima iteração.

                                                                              

                                                                          

        Depois de trazer a expressão L (w, b), obtemos:

                                                           

                                                           

        Expressão da matriz: como o número de linhas em x é igual ao número de diferenças, ele só pode ser multiplicado após a transposição.

                                                                      

  • Mínimo local

            Com base no conhecimento matemático, em funções diferenciáveis, o ponto em que a derivada é zero é um ponto extremo e o valor extremo é um conceito local. Ao usar a descida do gradiente para minimizar a função de perda, ela pode cair no ponto mínimo local, como o gradiente é zero, os parâmetros ficam bloqueados e são necessários alguns métodos especiais para saltar. No entanto, não há um mínimo local para a função de perda da regressão linear; portanto, o que é encontrado pela descida do gradiente é o mínimo global. (A imagem é citada no curso PPT)

       

  •  Resultados e previsões

            Após o treinamento, o erro no conjunto de treinamento é 31,9 e o erro no conjunto de teste é 35,0. (A imagem é citada no curso PPT)

                 


Over fiting


        O desempenho no conjunto de treinamento é bom, mas o desempenho ruim no conjunto de testes ou no aplicativo é o desempenho do ajuste excessivo.O ajuste excessivo pode ser causado por muitos parâmetros ou poucos dados. A sensação intuitiva é que, se o modelo for muito complicado e o conjunto de treinamento for muito pequeno, fará com que o modelo "lembre-se" do conjunto de treinamento e, em seguida, apenas "defina o tipo de pergunta". Para o caso acima, se os parâmetros do modelo forem aumentados adequadamente, melhores resultados poderão ser obtidos, mas se houver muitos parâmetros, ocorrerá o ajuste excessivo. Como mostra a figura a seguir (citada no curso PPT), ela se baseia no caso acima, usando modelos 1, 2, 3, 4, 5. respectivamente. Após o treinamento, o desempenho no conjunto de testes. Pode-se descobrir que conforme os parâmetros aumentam no início, o desempenho do modelo no conjunto de testes está melhorando, mas à medida que o modelo se torna mais complexo, o desempenho se torna cada vez pior. O modelo não é o mais complicado possível.O modelo apropriado deve ser selecionado de acordo com o tamanho do conjunto de treinamento.É claro que a regularização e o abandono podem reduzir a possibilidade de sobreajuste do modelo.

                      

                   


Regularização L2 (regularização L2)


        A regularização de L2 é punir w, adicionar um termo regular à função Perda, ao minimizar L, considerar os erros ew e reduzir w para uma pequena quantidade enquanto reduz o erro. A função com um w menor é mais suave e menos sensível às alterações de entrada. Escolher o λ apropriado pode melhorar a capacidade de generalização do modelo.

        Nota: o viés não participa da regularização porque não afeta a suavidade da função.

                                                        


 Referência 


         https://www.bilibili.com/video/BV1JE411g7XF?p=3

Publicado 28 artigos originais · Gostei 34 · Visitantes com mais de 20.000

Acho que você gosta

Origin blog.csdn.net/sinat_35907936/article/details/105075712
Recomendado
Clasificación