Logistic 回归（LR）推导

Logistic 回归是一个常用的分类模型以及神经网络的基础。

二项逻辑斯谛回归
Logistic 回归的思想是将线性模型用来做分类任务，需要找到一个单调可微函数将分类任务的真实标记 $y$ 与线性回归模型的预测值联系在一起（广义线性模型）。

这里，我们选取一个可以代替单位阶跃函数（不连续）的函数即对数几率函数（Logistic function）,它是一种 Sigmoid 函数即形似 $S$ 的函数。

y = \frac{1}{1 + e^{- z}}

$y = \frac{1}{1+e^{-z}}$

即

h_{θ} (x) = g (θ^{T} x) = \frac{1}{1 + e^{- θ^{T} x}}

$h_{\theta}(x) = g(\theta ^Tx) = \frac{1}{1+e^{-\theta ^Tx}}$

因为 $h_\theta(x)$ 本身代表着结果取 $1$ 的概率，因为可以得到以下概率形式：

P (y = 1 | x; θ) = h_{θ} (x)

$P(y=1|x;\theta) = h_\theta(x)$

P (y = 0 | x; θ) = 1 - h_{θ} (x)

$P(y=0|x;\theta) = 1 - h_\theta(x)$

两者合并，得到条件概率

P (y | x; θ) = (h_{θ} (x))^{y} (1 - h_{θ} (x))^{1 - y}

$P(y|x;\theta) = (h_\theta(x)) ^ y (1 - h_\theta(x)) ^ {1 - y}$
至此，我们已经得到了

L o g i s t i c

$Logistic$ 模型。

对于模型的参数估计，我们采取的策略是应用 极大似然估计法。
对于 $P(y|x;\theta)$ 似然函数为

L (θ) = \prod_{i = 1}^{N} (h_{θ} (x_{i}))^{y_{i}} (1 - h_{θ} (x_{i}))^{1 - y_{i}}

$L(\theta) = \prod_{i=1}^{N} (h_\theta(x_i)) ^ {y_i} (1 - h_\theta(x_i)) ^ {1 - y_i}$
关于似然函数的理解，如果概率论忘得差不多了，可以参考这两篇文章：
http://fangs.in/post/thinkstats/likelihood/
http://yangfangs.github.io/2018/04/06/the-different-of-likelihood-and-probability/

然后对数似然函数为

l (θ) = \log L (θ) = \sum_{i = 1}^{N} y_{i} \log (h_{θ} (x_{i})) + (1 - y_{i}) \log (1 - h_{θ} (x_{i}))

$l(\theta) = \log L(\theta) = \sum_{i=1}^{N} {y_i} \log (h_\theta(x_i)) + {(1 - y_i)} \log (1 - h_\theta(x_i))$
我们的目标是极大化对数似然函数。
我们定义

J (θ) = - \frac{1}{m} l (θ)

$J(\theta) = -\frac{1}{m} l(\theta)$ 得到

L o g i s t i c

$Logistic$ 的损失函数

J (θ) = - \frac{1}{m} \sum_{i = 1}^{N} y_{i} \log (h_{θ} (x_{i})) + (1 - y_{i}) \log (1 - h_{θ} (x_{i}))

$J(\theta) = -\frac{1}{m} \sum_{i=1}^{N} {y_i} \log (h_\theta(x_i)) + {(1 - y_i)} \log (1 - h_\theta(x_i))$
因此，接下来可以使用梯度下降等最优化方法求得极值参数。

多项逻辑斯谛回归
与二项逻辑斯谛回归相似，其模型定义为，假设离散型随机变量 $Y$ 的取值集合为 $\{1,2,...,K\}$

P (Y = k | x) = \frac{e^{{θ_{k}}^{T} x}}{1 + \sum_{k = 1}^{K - 1} e^{{θ_{k}}^{T} x}}, k = 1, 2, . . ., K - 1

$P(Y=k|x) = \frac{e^{{\theta_k}^T x}}{1+\sum_{k=1}^{K-1} e^{{\theta_k}^T x}} ,k=1,2,...,K-1$

P (Y = K | x) = \frac{1}{1 + \sum_{k = 1}^{K - 1} e^{{θ_{k}}^{T} x}}

$P(Y=K|x) = \frac{1}{1+\sum_{k=1}^{K-1} e^{{\theta_k}^T x}}$

参数估计策略与二项逻辑斯谛回归类似。

Logistic 回归 （LR）推导