Logistic回归的基本思想与公式推导

讲前小碎话

Logistic回归是一种线性分类模型，通常用来解决线性二分类或多分类问题。无论是在李航老师的《统计学习方法》书中，还是在吴恩达老师的机器学习课程中，都是先假设随机变量x服从Logistic分布，即有如下的分布函数和概率密度函数：

$F(x) = P(X\leq x) = \frac{1}{1+e^{-(x-\mu)/y}}$

$f(x)=F^{^{'}}(x) = \frac{e^{-(x-\mu)/y}}{\gamma (1+e^{-(x-\mu)/\gamma})^{2}}$

可是为什么定义这样的分布函数和概率密度函数，对于初学者来说，还是很难理解的。我们从Logistic回归的来源（也就是从贝叶斯学习发展来的）来理解其的基本思想，会让人明白很多！

对数似然比假设

后验概率： $p(w|x)$ ：在x条件下，事件w发生的概率。后验概率 = 先验概率 × 类别条件概率。对于分类问题，当属于某一类的后验概率最大时，判断为该类别。

$p(w|x)=p(x|w)p(w)$

几率：一个事件的几率，是指该事件发生的概率与该事件不发生的概率的比值，事件发生的概率为p，则该事件的对数几率为 $\frac{p}{1-p}$ 。Logistic回归的对数几率函数为 $log\frac{p}{1-p}$ 。

贝叶斯分类器极大似然估计：对于贝叶斯分类器来说，极大似然估计参数时的似然函数为 $\Pi p(x_{i}|w)$ （频率派的做法，可以先看一下贝叶斯学习的极大似然估计法~），参数估计时对其进行最大化。

线性判别函数：对于线性分类器来说：线性判别函数是分类超平面的数学公式表示。

线性判别函数： $g(x)=\Sigma w_{i} x_{i}+ w_{0}=w^{T}x+ w_{0}$

分类超平面： $g(x)=w^{T}x+ w_{0} = 0$

线性判别：if $w^{T}x+ w_{0} > 0$ assign x to $w_{1}$ ; if $w^{T}x+ w_{0} < 0$ assign x to $w_{2}$

对数几率似然假设：假设似然比（likelihood ratio）的对数为线性判别函数。(是先有的这个假设，才有的sigmoid函数，以及Logistic回归的一系列公式)。

$log(\frac{p(x|w)}{1-p(x|w)}) = \beta^{T}x+\beta _{0}$ ，带入贝叶斯公式，推导得到 $log(\frac{p(w|x)}{1-p(w|x)}) = w ^{T}x+w _{0}$ （注意 $\beta$ 和 $w$ 是不同的，应该差了一个常数倍数）。

即 $log(\frac{p}{1-p}) = w^{T}x+ w_{0}$ ，计算p得： $p=\frac{1}{1+e^{-(w^{T}x+w_{0})}}$ 。令 $\nu=w^{T}x+w_{0}$ ，得： $p=\frac{1}{1+e^{-\nu }}$ ，即为x属于某一类w的概率。而Logistic回归的 $h(x^{(i)})=p$ 。