Regressão logística de aprendizado de máquina, o que exatamente está retornando?

guia

Regressão logística, não se engane com o nome, na verdade ela costuma ser usada para realizar tarefas de classificação. A regressão logística adiciona a função de distribuição logística com base na regressão linear e muda de regressão para classificação. Qual é a razão para isso? O que está retornando? Vamos revelar o segredo juntos!

regressão linear

Antes de introduzir a regressão logística, a regressão linear não pode ser evitada, vamos falar brevemente sobre a regressão linear aqui.

Dado um conjunto de dados:
$\begin{aligned} features = &{(x_ {1 }^{1}, x_{1}^{2}), (x_{2}^{1}, x_{2}^{2}), ... , (x_{n}^{1 }, x_{n}^{2})}\\ \end{alinhado}$
$\begin{aligned} label = &{y_1, y_2, ... , y_n} \\ \end{aligned}$
O que a regressão linear tem a fazer é ajustar uma função $\theta_0+ \theta_1 x_1+\theta_2 x_2$ , função $y$ perfeitamente $x$ , e além deDados pontos de $dados$ $em$ $feições$ $,$ $feições$ $da$ $mesma$ $distribuição$ $Pontos de dados$ que não $sejam$ $recursos$ $também$ $podem passar$ $( ou seja$ $,$ $y$ é equipado $distribuição de dados de recursos$ ) $.$ $_$ $_$ Observe que aqui a regressão linear se ajusta à distribuição de variáveis contínuas, como cenários de aplicação comuns: previsão do preço da casa, previsão do tempo...

O acima é sobre a regressão de valores contínuos, então podemos melhorar a regressão linear para que ela possa completar a tarefa de previsão de valor discreto (classificação)? A resposta é sim, e a Logística deve estar no palco neste momento.

Função de distribuição logística

Vamos dar uma olhada em qual é a principal função de distribuição logística da regressão logística.
$\begin{aligned} Logística(x) = & \frac{1}{1+e^{-(x - μ)/γ}} \ \ \end{alinhado}$
onde μ é o parâmetro de localização e γ é o parâmetro de forma. A partir da definição de logística, pode-se perceber que a distribuição logística é uma distribuição contínua definida por seus parâmetros de localização e escala. A forma da distribuição logística é semelhante à da distribuição normal, mas a cauda da distribuição logística é mais longa, então podemos usar a distribuição logística para modelar distribuições de dados que têm caudas mais longas e picos mais altos do que a distribuição normal. A função Sigmóide comumente usada em aprendizado profundo é uma forma especial de μ = 0, γ = 1. Além disso, o intervalo de valores da função de distribuição da Logística é (0, 1), que pode ser usado para representar o tamanho da probabilidade .
Vamos tentar adicionar a função logística à regressão linear acima para ver qual reação química acontecerá.
$\begin{aligned} g(X) = & \frac{1}{1+e^{-(\theta_0+ \theta_1 x_1+\theta_2 x_2)}} \\ \end{alinhado}$

Modelagem probabilística de regressão logística

Como a probabilidade pode ser expressa após a adição da função logística, a tarefa de classificação pode ser realizada. Tome a classificação binária como exemplo, a função ou modelo prevê um valor de 0-1, definimos um limite, acima do limite o rótulo de julgamento é "1", caso contrário, o rótulo de julgamento é "0". Ou seja, encontramos a correspondência entre a probabilidade de classificação p(y = 1) e o recurso de entrada x —>>> $p (e = 1 ∣ x)$ , e então julgue a categoria pelo valor de probabilidade.

Dissemos que a função acima $g (X)$ significa dadoCondicional em $X$ $y =$ A probabilidade de $1$ $p (e = 1 ∣ x)$ . Neste momento, vamos usar nossas habilidades matemáticas, temos um problema com $g (X)$ faça alguma deformação, obtenha:
$\begin{aligned} \theta_0+ \theta_1 x_1+\theta_2 x_2 = ln\frac {g(X)}{1 - g(X)}\\ \end{alinhado}$

A partir dessa fórmula, fica relativamente claro: o lado esquerdo é o método de regressão linear e qual é o lado direito? O lado direito é uma forma logarítmica, o numerador da parte exponencial é $p (e = 1 ∣ x)$ , o denominador é 1 menos o numerador, o significado da expressão é $p (e = 0 ∣ x)$ ,a razão do numerador para o denominador é chamada de odds, e tomar o logaritmo é o log odds. Então agora temos a resposta que queremos:

A regressão logística, de fato, retorna a probabilidade logarítmica dos dados fornecidos e o rótulo verdadeiro .

Vamos converter a fórmula acima para $g (X)$ é considerado dado $Prevê-se que X$ seja $y = Com uma probabilidade condicional de 1$ , obtemos:

$\begin{aligned} \theta_0+ \theta_1 x_1+\theta_2 x_2 = ln\frac{p (y = 1 | X)}{1 - p(y = 1 | X)}\\ end{alinhado}$

Embora eu conheça o princípio da regressão logística, por que faço isso? Quais são as vantagens de fazer isso?

Modele diretamente a probabilidade de classificação sem implementar distribuições de dados hipotéticos, evitando assim os problemas causados por suposições imprecisas (diferente dos modelos generativos) Este é um problema geral em aprendizado de máquina, que sempre é assumido primeiro, mas geralmente não é tão ideal;
Não apenas a categoria pode ser prevista, mas também a probabilidade da previsão pode ser obtida, o que é útil para algumas tarefas que usam a probabilidade para auxiliar na tomada de decisão;
A função de probabilidade logarítmica é uma função convexa que pode ser diferenciada em qualquer ordem, e existem muitos algoritmos de otimização numérica que podem encontrar a solução ideal.

função de perda

Acima deduzimos a regressão logística e estabelecemos um modelo matemático. Depois que o modelo é determinado, é necessário estimar os parâmetros do modelo para que o modelo se ajuste melhor à distribuição de nosso conjunto de dados fornecido. Normalmente, em matemática, a estimativa de parâmetros também é o método de estimativa de máxima verossimilhança, yyds . Isso é encontrar um conjunto de parâmetros de modo que sob esse conjunto de parâmetros, com base em nossos dados, a probabilidade obtida seja a maior.

Mencionado na derivação anterior:

$\begin{alinhado} p(y = 1 | X) = p(X)\\ p( y = 0 | X) = 1 - p(X)\\ \end{alinhado}$

Então, com base nos dados fornecidos, nossa função de verossimilhança pode ser escrita como:
$\begin{aligned} L( \ teta) = \prod_{i = 1}^{n}p(x_i)^{y_i} *(1 - p(x_i))^{1 - y_i}) \end{alinhado}$
Em outras palavras, defina $p(x_i) = \frac{1}{1+e^{-(\theta_0+ \ theta_1 x_1+\theta_2 x_2)}}$ ， $y_i$ = {0, 1} .

Os humanos são diferentes dos computadores. Ao calcular, eles ainda sentem que a adição e a subtração são relativamente simples, então usamos o $L(\theta) acima$ infinito, inferir:
$\begin{aligned} ln L(\theta) =\frac{1}{n}*\sum_{i=1}^{n}(y_{i} p(x_i) + (1 - y_i)(1 - p(x_i)) ) \end{alinhado}$
De acordo com o pensamento de pessoas normais, esperamos que quando a função de perda for minimizada, o desempenho do modelo seja melhor. Mas como estamos usando o método de estimativa de máxima verossimilhança aqui, queremos fazer com que a fórmula acima tenha o valor máximo, então simplesmente adicione um sinal negativo na frente dela, para que possamos usá-la como uma função de perda com tranquilidade.
$\begin{alinhado} ln L(\theta) =-\frac {1}{n} * \sum_{i = 1}^{n} (y_{i} p(x_i) + (1 - y_i)(1 - p(x_i))) \end{alinhado}$
Se você tem medo de overfitting do modelo, pode adicionar a regularização L1 e a regularização L2 mais tarde. Esses dois métodos foram introduzidos em artigos anteriores. Você pode consultar: Seu modelo está superajustado novamente ? Por que não tentar a regularização L1, L2

Para a otimização do modelo, basta usar a descida de gradiente estocástico convencional (SGD) e você também pode tentar outros métodos de otimização: Gradient Optimization Method Encyclopedia

Resumir

Este artigo conduz uma análise aprofundada da regressão logística (LR) a partir dos aspectos do raciocínio do modelo e das funções de perda, e esclarece o processo de modelagem da regressão logística e os princípios matemáticos e significados físicos por trás dela. Espero que todos possam se tornar mais transparentes depois de assistir. Embora a regressão logística seja um algoritmo de nível de entrada para aprendizado de máquina, há muitos detalhes nele e deve valer a pena pesquisar. Portanto, espero que todos possam discutir e se comunicar na área de comentários, colidir com faíscas e progredir juntos. Se você gostou, deixe um like e pronto~ Você também pode marcá-lo e assistir devagar~

Regressão logística de aprendizado de máquina, o que exatamente está retornando?

Acho que você gosta