Regressão logística de aprendizado de máquina, o que exatamente está retornando?

guia

Regressão logística, não se engane com o nome, na verdade ela costuma ser usada para realizar tarefas de classificação. A regressão logística adiciona a função de distribuição logística com base na regressão linear e muda de regressão para classificação. Qual é a razão para isso? O que está retornando? Vamos revelar o segredo juntos!

regressão linear

Antes de introduzir a regressão logística, a regressão linear não pode ser evitada, vamos falar brevemente sobre a regressão linear aqui.

Dado um conjunto de dados:
features = ( x 1 1 , x 1 2 ) , ( x 2 1 , x 2 2 ) , . . . , ( xn 1 , xn 2 ) \begin{aligned} features = &{(x_ {1 }^{1}, x_{1}^{2}), (x_{2}^{1}, x_{2}^{2}), ... , (x_{n}^{1 }, x_{n}^{2})}\\ \end{alinhado}características _ _ _ _ _ _ _=( x11,x12) ,( x21,x22) ,. . . ,( xn1,xn2)
rótulo = y 1 , y 2 , . . . , yn \begin{aligned} label = &{y_1, y_2, ... , y_n} \\ \end{aligned}l a b e l=y1,y2,. . . ,yn
O que a regressão linear tem a fazer é ajustar uma função y = θ 0 + θ 1 x 1 + θ 2 x 2 y = \theta_0+ \theta_1 x_1+\theta_2 x_2y=eu0+eu1x1+eu2x2, função aay pode passar por todos os pontos de dados xxperfeitamentex , e além derecursos recursosDados pontos de dados em feições , feições feições da mesma distribuiçãoPontos de dados que não sejam recursos também podem passar ( ou seja , a função yyy é equipadorecursos recursosdistribuição de dados de recursos ) . _ _ Observe que aqui a regressão linear se ajusta à distribuição de variáveis ​​contínuas, como cenários de aplicação comuns: previsão do preço da casa, previsão do tempo...

O acima é sobre a regressão de valores contínuos, então podemos melhorar a regressão linear para que ela possa completar a tarefa de previsão de valor discreto (classificação)? A resposta é sim, e a Logística deve estar no palco neste momento.

Função de distribuição logística

Vamos dar uma olhada em qual é a principal função de distribuição logística da regressão logística.
Logística ( x ) = 1 1 + e − ( x − μ ) / γ \begin{aligned} Logística(x) = & \frac{1}{1+e^{-(x - μ)/γ}} \ \ \end{alinhado}L o g í s t i c a ( x )=1+e( x μ ) / c1
onde μ é o parâmetro de localização e γ é o parâmetro de forma. A partir da definição de logística, pode-se perceber que a distribuição logística é uma distribuição contínua definida por seus parâmetros de localização e escala. A forma da distribuição logística é semelhante à da distribuição normal, mas a cauda da distribuição logística é mais longa, então podemos usar a distribuição logística para modelar distribuições de dados que têm caudas mais longas e picos mais altos do que a distribuição normal. A função Sigmóide comumente usada em aprendizado profundo é uma forma especial de μ = 0, γ = 1. Além disso, o intervalo de valores da função de distribuição da Logística é (0, 1), que pode ser usado para representar o tamanho da probabilidade .
Vamos tentar adicionar a função logística à regressão linear acima para ver qual reação química acontecerá.
g ( X ) = 1 1 + e − ( θ 0 + θ 1 x 1 + θ 2 x 2 ) \begin{aligned} g(X) = & \frac{1}{1+e^{-(\theta_0+ \theta_1 x_1+\theta_2 x_2)}} \\ \end{alinhado}g ( X )=1+e( eu0+ eu1x1+ eu2x2)1

Modelagem probabilística de regressão logística

Como a probabilidade pode ser expressa após a adição da função logística, a tarefa de classificação pode ser realizada. Tome a classificação binária como exemplo, a função ou modelo prevê um valor de 0-1, definimos um limite, acima do limite o rótulo de julgamento é "1", caso contrário, o rótulo de julgamento é "0". Ou seja, encontramos a correspondência entre a probabilidade de classificação p(y = 1) e o recurso de entrada x —>>> p ( y = 1 ∣ x ) p(y = 1 | x)p ( e=1 x ) , e então julgue a categoria pelo valor de probabilidade.

Dissemos que a função acima g ( X ) g(X)g ( X ) significa dadoXXCondicional em X , o rótulo é previsto para ser y = 1 y = 1y=A probabilidade de 1 , isto é , p ( y = 1 ∣ x ) p(y = 1 | x)p ( e=1 x ) . Neste momento, vamos usar nossas habilidades matemáticas, temos um problema comg ( X ) g(X)g ( X ) faça alguma deformação, obtenha:
θ 0 + θ 1 x 1 + θ 2 x 2 = lng ( X ) 1 − g ( X ) \begin{aligned} \theta_0+ \theta_1 x_1+\theta_2 x_2 = ln\frac {g(X)}{1 - g(X)}\\ \end{alinhado}eu0+eu1x1+eu2x2=eu n1g ( X )g ( X )

A partir dessa fórmula, fica relativamente claro: o lado esquerdo é o método de regressão linear e qual é o lado direito? O lado direito é uma forma logarítmica, o numerador da parte exponencial é p ( y = 1 ∣ x ) p(y = 1 | x)p ( e=1 x ) , o denominador é 1 menos o numerador, o significado da expressão ép ( y = 0 ∣ x ) p(y = 0 | x)p ( e=0 x ) ,a razão do numerador para o denominador é chamada de odds, e tomar o logaritmo é o log odds. Então agora temos a resposta que queremos:

A regressão logística, de fato, retorna a probabilidade logarítmica dos dados fornecidos e o rótulo verdadeiro .

Vamos converter a fórmula acima para g ( X ) g(X)g ( X ) é considerado dadoXXPrevê-se que X sejay=1 y=1y=Com uma probabilidade condicional de 1 , obtemos:

θ 0 + θ 1 x 1 + θ 2 x 2 = lnp ( y = 1 ∣ X ) 1 − p ( y = 1 ∣ X ) \begin{aligned} \theta_0+ \theta_1 x_1+\theta_2 x_2 = ln\frac{p (y = 1 | X)}{1 - p(y = 1 | X)}\\ end{alinhado}eu0+eu1x1+eu2x2=eu n1p ( e=1 X )p ( e=1 X )

Embora eu conheça o princípio da regressão logística, por que faço isso? Quais são as vantagens de fazer isso?

  • Modele diretamente a probabilidade de classificação sem implementar distribuições de dados hipotéticos, evitando assim os problemas causados ​​por suposições imprecisas (diferente dos modelos generativos) Este é um problema geral em aprendizado de máquina, que sempre é assumido primeiro, mas geralmente não é tão ideal;
  • Não apenas a categoria pode ser prevista, mas também a probabilidade da previsão pode ser obtida, o que é útil para algumas tarefas que usam a probabilidade para auxiliar na tomada de decisão;
  • A função de probabilidade logarítmica é uma função convexa que pode ser diferenciada em qualquer ordem, e existem muitos algoritmos de otimização numérica que podem encontrar a solução ideal.

função de perda

Acima deduzimos a regressão logística e estabelecemos um modelo matemático. Depois que o modelo é determinado, é necessário estimar os parâmetros do modelo para que o modelo se ajuste melhor à distribuição de nosso conjunto de dados fornecido. Normalmente, em matemática, a estimativa de parâmetros também é o método de estimativa de máxima verossimilhança, yyds . Isso é encontrar um conjunto de parâmetros de modo que sob esse conjunto de parâmetros, com base em nossos dados, a probabilidade obtida seja a maior.

Mencionado na derivação anterior:

p ( y = 1 ∣ X ) = p ( X ) p ( y = 0 ∣ X ) = 1 − p ( X ) \begin{alinhado} p(y = 1 | X) = p(X)\\ p( y = 0 | X) = 1 - p(X)\\ \end{alinhado}p ( e=1 X )=p ( x )p ( e=0 X )=1p ( X )

Então, com base nos dados fornecidos, nossa função de verossimilhança pode ser escrita como:
L ( θ ) = ∏ i = 1 np ( xi ) yi ∗ ( 1 − p ( xi ) ) 1 − yi ) \begin{aligned} L( \ teta) = \prod_{i = 1}^{n}p(x_i)^{y_i} *(1 - p(x_i))^{1 - y_i}) \end{alinhado}L ( eu )=eu = 1np ( xeu)yeu( 1p ( xeu) )1 yeu)
Em outras palavras, defina p ( xi ) = 1 1 + e − ( θ 0 + θ 1 x 1 + θ 2 x 2 ) p(x_i) = \frac{1}{1+e^{-(\theta_0+ \ theta_1 x_1+\theta_2 x_2)}}p ( xeu)=1 + e( eu0+ eu1x1+ eu2x2)1yi y_iyeu= {0, 1} .

Os humanos são diferentes dos computadores. Ao calcular, eles ainda sentem que a adição e a subtração são relativamente simples, então usamos o L ( θ ) L(\theta) acimaSeja L ( θ ) infinito, inferir:
ln L ( θ ) = 1 n ∗ ∑ i = 1 n ( yip ( xi ) + ( 1 − yi ) ( 1 − p ( xi ) ) ) \begin{aligned} ln L(\theta) =\frac{1}{n}*\sum_{i=1}^{n}(y_{i} p(x_i) + (1 - y_i)(1 - p(x_i)) ) \end{alinhado}l n L ( θ )=n1eu = 1n( yeup ( xeu)+( 1yeu) ( 1p ( xeu) ) )
De acordo com o pensamento de pessoas normais, esperamos que quando a função de perda for minimizada, o desempenho do modelo seja melhor. Mas como estamos usando o método de estimativa de máxima verossimilhança aqui, queremos fazer com que a fórmula acima tenha o valor máximo, então simplesmente adicione um sinal negativo na frente dela, para que possamos usá-la como uma função de perda com tranquilidade.
ln L ( θ ) = − 1 n ∗ ∑ i = 1 n ( yip ( xi ) + ( 1 − yi ) ( 1 − p ( xi ) ) ) \begin{alinhado} ln L(\theta) =-\frac {1}{n} * \sum_{i = 1}^{n} (y_{i} p(x_i) + (1 - y_i)(1 - p(x_i))) \end{alinhado}l n L ( θ )=n1eu = 1n( yeup ( xeu)+( 1yeu) ( 1p ( xeu) ) )
Se você tem medo de overfitting do modelo, pode adicionar a regularização L1 e a regularização L2 mais tarde. Esses dois métodos foram introduzidos em artigos anteriores. Você pode consultar: Seu modelo está superajustado novamente ? Por que não tentar a regularização L1, L2

Para a otimização do modelo, basta usar a descida de gradiente estocástico convencional (SGD) e você também pode tentar outros métodos de otimização: Gradient Optimization Method Encyclopedia

Resumir

Este artigo conduz uma análise aprofundada da regressão logística (LR) a partir dos aspectos do raciocínio do modelo e das funções de perda, e esclarece o processo de modelagem da regressão logística e os princípios matemáticos e significados físicos por trás dela. Espero que todos possam se tornar mais transparentes depois de assistir. Embora a regressão logística seja um algoritmo de nível de entrada para aprendizado de máquina, há muitos detalhes nele e deve valer a pena pesquisar. Portanto, espero que todos possam discutir e se comunicar na área de comentários, colidir com faíscas e progredir juntos. Se você gostou, deixe um like e pronto~ Você também pode marcá-lo e assistir devagar~

Acho que você gosta

Origin blog.csdn.net/Just_do_myself/article/details/118685143
Recomendado
Clasificación