逻辑斯谛回归

本文以Kaggle泰坦尼克号问题中的一个Kernel 以及李航博士的《统计学习方法》为基础来对逻辑斯谛回归进行描述

本文绝大大部分算法皆来自李航博士的《统计学习方法》第六章逻辑斯蒂回归模型与最大熵模型，只再次基础上增加了一点东西

Kaggle入门中一个经典的例子便是–泰坦尼克号问题，很多时候选择的第一个模型便是逻辑斯谛回归模型

二项逻辑斯谛回归模型

对于Kaggle中的泰坦尼克号问题，要预测的是乘客的生存问题，只有生存或者死亡两种结果，因此可以采用二项逻辑斯谛回归模型。

P (Y = 1 | x) = \frac{\exp (w * x + b)}{1 + e x p (w * x + b)}

$P(Y=1|x) = \dfrac {\exp \left( w*x+b\right) }{1+exp(w*x+b) }$

P (Y = 0 | x) = \frac{1}{1 + e x p (w * x + b)}

$P(Y=0|x) = \dfrac {1 }{1+exp(w*x+b) }$
对于这两个公式而言：

x \in R^{n}

$x\in \mathbb{R} ^{n}$
是输入，可以看一下输入的数据是什么样的
这里写图片描述

相对于输入，输出为

y \in {0, 1}

$y\in \left\{ 0,1\right\}$
即对于一个输入实例x可以通过二项逻辑斯谛回归模型的条件概率分布来计算x的生存或者死亡概率，取概率比较大的来作为预测值
可以观察一下二项逻辑斯谛回归模型，输入为x已知，未知量有

ω

$\displaystyle \omega$ 以及

b

$\displaystyle b$
为了简化起见，可以舍去未知量b，这时候 二项逻辑斯谛回归模型为

P (Y = 1 | x) = \frac{\exp (w * x)}{1 + e x p (w * x)}

$P(Y=1|x) = \dfrac {\exp \left( w*x\right) }{1+exp(w*x) }$

P (Y = 0 | x) = \frac{1}{1 + e x p (w * x)}

$P(Y=0|x) = \dfrac {1 }{1+exp(w*x) }$
这时候只有一个未知量

ω

$\displaystyle \omega$ ，要做的事情很简单就是找到一个参数

ω

$\displaystyle \omega$ 使得它对所有的输入x都能有一个合理的预测

实质上在整个学习过程中要做的事情很简单，就是找到一个合理的参数w使得对于给定的输入x有一个合理的预测y，判断是否合理，可以采用训练数据集里面的数据来进行判断

模型参数估计

对于给定的训练数据集

T = {(x_{1}, y_{1}), (x_{2}, y 2) \dots}

$T=\left\{ \left( x_{1},y_{1}\right) ,\left( x_{2},y2\right) \ldots \right\}$
注意

x_{i} \in R^{n}

$x_{i}\in \mathbb{R} ^{n}$
可以应用极大似然估计法估计模型参数
设：

P (Y = 1 | x) = π (x)

$P(Y=1|x)=\pi(x)$

P (Y = 0 | x) = 1 - π (x)

$P(Y=0|x)=1-\pi(x)$
似然函数为

\prod_{i = 1}^{N} {[π (x_{i})]}^{y_{i}} {[1 - π (x_{i})]}^{1 - y_{i}}

$\prod_{i=1}^N\left[\pi\left( x_{i}\right) \right] ^{y_{i}}\left[ 1-\pi\left( x_{i}\right) \right] ^{1-y_{i}}$
对数似然函数为

L (w) = \sum_{i = 1}^{N} [y i l o g π (x i) - (1 - y i) l o g (1 - π (x i))]

$L(w)=\sum ^{N}_{i=1}[yilog\pi(xi)-(1-yi)log(1-\pi(xi))]$

= \sum_{i = 1}^{N} [y_{i} \log \frac{π (x_{i})}{1 - π (x_{i})} + l o g (1 - π (x i))]

$=\sum ^{N}_{i=1}[y_{i}\log \dfrac {\pi \left( x_{i}\right) }{1-\pi \left( x_{i}\right) }+log(1-\pi(xi))]$

= \sum_{i = 1}^{N} [y i (w * x i) - l o g (1 + e x p (w * x i)]

$=\sum ^{N}_{i=1}[yi(w*xi)-log(1+exp(w*xi)]$
对L(w)求极大值，就可以得到w的估计值
问题就变成了以对数似然函数为目标函数的最优化问题，可以采用梯度下降法

极大似然估计的定义

1.设总体x的概率分布为

f (x, θ 1, θ_{2} \dots θ_{k})

$f\left( x,\theta 1,\theta _{2}\ldots \theta _{k}\right)$
其中

θ_{1}, θ_{2}, \dots θ_{k}

$\theta _{1},\theta _{2},\ldots \theta _{k}$
为参数
2.设X1，X2，…Xn为一组样本，它们的联合概率密度为

L (x_{1}, x_{2}, \dots x_{n}; θ_{1}, θ_{2} \dots θ_{k}) = \prod_{i = 1}^{h} f (x_{i}, θ_{1}, θ_{2} \dots θ_{k})

$L\left( x_{1},x_{2},\ldots x_{n};\theta_{1},\theta _{2}\ldots \theta _{k}\right)=\prod ^{h}_{i=1}f\left( x_{i},\theta _{1},\theta _{2}\ldots \theta _{k}\right)$
3.设x1，x2，…xn是样本X1，X2，…Xn的一组观测值，使出现x1，x2，…xn最大可能的一组实数

θ_{1}^{*}, θ_{2}^{*} \dots θ_{k}^{*}

$\theta ^{\ast }_{1},\theta ^{\ast }_{2}\ldots \theta ^{\ast }_{k}$
引出了参数估计的一种方法

注：

L (x_{1}, x_{2}, \dots x_{n}; θ_{1}, θ_{2} \dots θ_{k})

$L\left( x_{1},x_{2},\ldots x_{n};\theta_{1},\theta _{2}\ldots \theta _{k}\right)$
实际上是概率的乘积，以二项逻辑斯谛回归模型为例
假设

w = θ_{1}, θ_{2}, \dots θ_{k}

$w=\theta _{1},\theta _{2},\ldots \theta _{k}$

f (x) = {\begin{cases} π (x) \\ 1 - π (x) \end{cases}

$f\left( x\right) =\begin{cases}\pi(x)\\ 1-\pi \left( x\right) \end{cases}$

P (Y = 1 | x) = π (x)

$P(Y=1|x)=\pi(x)$

P (Y = 0 | x) = 1 - π (x)

$P(Y=0|x)=1-\pi(x)$
则

L (x_{1}, x_{2}, \dots x_{n}; θ_{1}, θ_{2} \dots θ_{k}) = \prod_{i = 1}^{h} f (x_{i}, θ_{1}, θ_{2} \dots θ_{k})

$L\left( x_{1},x_{2},\ldots x_{n};\theta_{1},\theta _{2}\ldots \theta _{k}\right)=\prod ^{h}_{i=1}f\left( x_{i},\theta _{1},\theta _{2}\ldots \theta _{k}\right)$
就可以转换为

\prod_{i = 1}^{N} {[π (x_{i})]}^{y_{i}} {[1 - π (x_{i})]}^{1 - y_{i}}

$\prod_{i=1}^N\left[\pi\left( x_{i}\right) \right] ^{y_{i}}\left[ 1-\pi\left( x_{i}\right) \right] ^{1-y_{i}}$
可以观察到此式实质上为概率的乘积
可以取两个值带入，假设yi为0
则

[π (x i)]^{y_{i}} = 1

$[\pi(xi)]^{y_{i}} = 1$
假设yi为1
则

[1 - π (x_{i})]^{1 - y_{i}} = 1

$[1-\pi( x_{i})] ^{1-y_{i}} = 1$

进一步转换为

\sum_{i = 1}^{N} [y i (w * x i) - l o g (1 + e x p (w * x i)]

$\sum ^{N}_{i=1}[yi(w*xi)-log(1+exp(w*xi)]$
即要求出一个

w = θ_{1}^{*}, θ_{2}^{*} \dots θ_{k}^{*}

$w=\theta ^{\ast }_{1},\theta ^{\ast }_{2}\ldots \theta ^{\ast }_{k}$
使得

\prod_{i = 1}^{N} {[π (x_{i})]}^{y_{i}} {[1 - π (x_{i})]}^{1 - y_{i}}

$\prod_{i=1}^N\left[\pi\left( x_{i}\right) \right] ^{y_{i}}\left[ 1-\pi\left( x_{i}\right) \right] ^{1-y_{i}}$
最大，即对于所有的x对应的概率乘积最大，类似于通解的一种情况

梯度下降算法

假设f(x)是 $\displaystyle R^n$ 上具有一阶连续偏导数的函数，要求解的无约束最优化问题是

min_{x \in R^{n}} f (x)

$\min _{x\in R^{n}}f\left( x\right)$

x^{*}

$\displaystyle x^*$ 表示目标函数f(x)的极小点
对于极大似然函数，要求的是极大值，可以增加一个负号，这样就等价于求极小值

min_{x \in R^{n}} - L (ω)

$\min _{x\in R^{n}}-L\left( \omega \right)$
梯度下降法是一种迭代算法，取适当的初值

x^{(0)}

$\displaystyle x^{\left( 0\right) }$ ，不断迭代，更新

x

$\displaystyle x$ 的值，进行目标函数的极小化，直至收敛

梯度下降法

输入：目标函数 $\displaystyle f(x)$ ，梯度函数 $\displaystyle g(x)=\nabla f\left( x\right)$ ，计算精度 $\displaystyle \varepsilon$
输出： $\displaystyle f(x)$ 的极小点 $\displaystyle x^*$
1.取初始值 $\displaystyle x^{\left( 0\right) }\in R^{n}$ ，置 $\displaystyle k=0$
2.计算 $\displaystyle f\left( x^{\left( k\right) }\right)$
3.计算梯度 $\displaystyle g_k=g\left( x^{\left( k\right) }\right)$ ，当 $\displaystyle \left\| g_{k}\right\| <\varepsilon$ 时，停止迭代，令 $\displaystyle X^{\ast }=X^{\left( k\right) }$ ；否则，令 $\displaystyle p_{k}=-g\left( x^{\left( k\right) }\right)$ ，求 $\displaystyle \lambda _{k}$ ，使

f (x^{(k)} + λ_{k} p_{k}) = min_{λ \geq 0} f (x^{(k)} + λ p_{k})

$f\left( x^{\left( k\right) }+\lambda _{k}p_{k}\right)=\min _{\lambda \geq 0}f\left( x^{\left( k\right) }+\lambda p_{k}\right)$
4.置

x^{(k + 1) =} x^{(k)} + λ_{k} p_{k}

$\displaystyle x^{\left( k+1\right) =}x^{\left( k\right) }+\lambda _{k}p_{k}$ ，计算

f (x^{(k + 1)})

$\displaystyle f\left( x^{\left( k+1\right) }\right)$
当

‖ f (x^{(k + 1)}) - f (x^{(k)}) ‖ < ε

$\displaystyle \left\| f\left( x^{\left( k+1\right) }\right) -f\left( x^{\left( k\right) }\right) \right\|<\varepsilon$ 或

‖ x^{(k + 1)} - x^{(k)} ‖ < ε

$\displaystyle \left\| x^{\left( k+1\right) }-x^{\left( k\right) }\right\| <\varepsilon$ 时，停止迭代，令

x^{*} = x^{(k + 1)}

$\displaystyle x^*=x^{\left( k+1\right) }$
5.否则，置

k = k + 1

$\displaystyle k=k+1$ 转3

这样，经过梯度下降法就可以求得 $\displaystyle \widehat {w}$ ，那么学习到的逻辑斯谛回归模型为

P (Y = 1 | x) = \frac{\exp (\hat{w} x)}{1 + \exp (\hat{w} x)}

$P(Y=1|x)=\dfrac {\exp \left( \widehat {w}x\right) }{1+\exp \left( \widehat {w}x\right) }$

P (Y = 1 | x) = \frac{1}{1 + \exp (\hat{w} x)}

$P(Y=1|x)=\dfrac {1 }{1+\exp \left( \widehat {w}x\right) }$
这样对于测试的实例x就可以求得其生存或者死亡概率

参考资料

[1] 李航. 逻辑斯谛回归与最大熵模型. 统计学习方法. 2012
[2] Kaggle Kernels
[3] 概率论与数理统计（第四版）