第6章 logistic regression与最大熵模型（1）·逻辑斯蒂回归模型

标签（空格分隔）：机器学习教程·李航统计学习方法

第6章 logistic regression与最大熵模型1逻辑斯蒂回归模型
Logistic distribution
二项逻辑斯蒂回归模型及其特点
- 1 二项逻辑斯蒂回归模型
- 2 二项逻辑斯蒂回归模型的特点
二项逻辑斯蒂回归模型参数的估计
多项逻辑斯蒂回归
二项逻辑斯蒂回归和多项逻辑斯蒂回归
参考文献

逻辑斯蒂：logistic
李航书中称之为：逻辑斯蒂回归模型
周志华书中称之为：对数几率回归模型
Andrew NG书中称之为：逻辑回归
……好吧！好多不同的名称，其实都是一种方法，晕了好久……

为了利用逻辑斯蒂分布去进行回归问题的分析，首先，必须知道什么是逻辑斯蒂分布，所以，本节主要讨论逻辑斯蒂分布，它是一个连续分布，与高斯分布非常像；

1 Logistic distribution

The Logistic distribution is a continuous probability density function that is symmetric
and uni-modal. It is similar in appearance to the Normal distribution and in practical
applications, the two distributions cannot be distinguished from one another.

1.1 一维逻辑斯蒂分布的数学定义

分布函数
$F (x) = 1 1 + e - ( x - μ ) / σ$ $F(x)=\frac{1}{1+e^{-(x-\mu)/\sigma}}$
注1：也可以写成
$F (x) = e ( x - μ ) / σ e ( x - μ ) / σ + 1$ $F(x)=\frac{e^{(x-\mu)/\sigma}}{e^{(x-\mu)/\sigma}+1}$
注2：分布函数（即概率累积函数）的导数
$F' (x) = - ( 1 + e - ( x - μ ) / σ ) ' ( 1 + e - ( x - μ ) / σ ) 2 = - (- 1 σ) e - ( x - μ ) / σ ( 1 + e - ( x - μ ) / σ ) 2 = 1 σ e - ( x - μ ) / σ ( 1 + e - ( x - μ ) / σ ) 2$ $F'(x)=-\frac{(1+e^{-(x-\mu)/\sigma})'}{(1+e^{-(x-\mu)/\sigma})^2}= -\left ( -\frac{1}{\sigma} \right )\frac{e^{-(x-\mu)/\sigma}}{(1+e^{-(x-\mu)/\sigma})^2}= \frac{1}{\sigma}\frac{e^{-(x-\mu)/\sigma}}{(1+e^{-(x-\mu)/\sigma})^2}$
概率密度函数
$f (x) = 1 σ * e - ( x - μ ) / σ ( 1 + e - ( x - μ ) / σ ) 2$ $f(x)=\frac{1}{\sigma}* \frac{e^{-(x-\mu)/\sigma}}{(1+e^{-(x-\mu)/\sigma})^2}$
logistic涉及两个参数
- $\mu$ ：location，控制分布函数的中心位置，或者说是概率密度函数对称轴的位置
- $\sigma$ ：scale，该参数控制着 $f(x)$ 的宽和高；其值越大， $f(x)$ 越矮越胖
  
  注：其实该参数 $\sigma$ 与正态分布的 $\sigma$ 含义相同，只不过相差了一个系数 $\frac{\pi^2}{3}$ （这个数字来自于logistic distribution的方差），

1.2 logistic分布的均值和方差

均值： $E (x) = μ$ $E(x) = \mu$
方差： $V a r (x) = 1 3 (π σ) 2$ $Var(x) = \frac{1}{3}(\pi \sigma)^2$
考察高斯分布 N(μ,σ2) ，它的均值为 μ ，方差为 σ2 ：
- 可以看到，logistic分布的方差 $\frac{\sigma^2\pi^2}{3}$ 与高斯分布方差只是差了一个常数项 $\frac{\pi^2}{3}$
- 所以说，logistic分布与高斯分布非常相似
- 如下图所示，分别绘制出了参数为(0,1)的logistic分布和参数为(0, $\frac{\pi^2}{3}$ )的高斯分布的密度函数，此时，二者的方差取值相同（都为 $\frac{\pi^2}{3}$ ），可以看到，此时的logistic概率密度函数和高斯函数概率密度函数非常接近

1.3 何时需要用到Logistic分布

image_1b3e3t2293ac1cbm122r1s2p21f3u.png-6.4kB

由于logistic分布的分布函数（S型）的良好的数学性质，使得它的概率密度函数具有对称性，从而，经常使用logistic分布区近似其他具有对称概率密度函数的分布
logistic分布的这种S-shapesd的分布，称为Logistic regression model，其用来对某个输入最可能的输出进行预测
logistic CDF（分布函数、cumulative distribution function）的S-shaped曲线，实际上可以描述了某一个事件发生的可能性

2. 二项逻辑斯蒂回归模型及其特点

2.1 二项逻辑斯蒂回归模型

上面讨论了逻辑斯蒂分布，接下来将该分布应用到机器学习的分类问题中！

假设我们要解决的问题为一个二分类问题，那么，可以利用逻辑斯蒂分布来对二分类模型建模，即对于一个样本x，它的类别要么为1，要么为0，我们设定它为1的概率为逻辑斯蒂分布中的概率分布形式，那么，它为0的概率也就是1-P(y=0)；

这里的“二项”一词，与二项分布的意义相同（一次试验的结果要么为1要么为0），一个样本类别要么为1要么为0

二项逻辑斯蒂回归模型的应用场景：
两类分类问题，期 $Y \in \{1,0\}$
另：样本 $x$ 具有n个特征，即 $x \in R\;^n$
二项逻辑斯蒂回归模型具体形式：

⎧⎩⎨⎪⎪⎪⎪⎪⎪P(Y=1|x)=exp(w⋅x+b)1+exp(w⋅x+b)P(Y=0|x)=11+exp(w⋅x+b)
- 注1： $P(Y=1|x)+P(Y=0|x)=1$
- 注2：上面的二项逻辑斯蒂回归模型其实就是一个二项分布的形式，即一次试验的结果要么为1、要么为0，其中，结果为1的概率利用逻辑斯蒂分布给出
最终类别的判定：
对于给定的样本 $x$ ，利用二项逻辑斯蒂回归模型计算该样本类别为1和0的概率，然后，将样本 $x$ 分类到概率较大的那一类
二项逻辑斯蒂回归模型的紧凑形式：对输入向量进行扩充，添加一个1，从而，可以将参数向量 $w$ 和偏移量 $b$ 写在一起，仍记为 $w$ ，此时，逻辑回归模型为：

$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ P (Y = 1 | x) = exp ( w x ) 1 + exp ( w x ) P (Y = 0 | x) = 1 1 + exp ( w x )$ $\left\{\begin{matrix} P(Y=1|x) = \frac{\exp(wx)}{1+\exp(wx)}\\ P(Y=0|x) = \frac{1}{1+\exp(wx)} \end{matrix}\right.$
注： $w·x+b=w_1x_1+\cdots+w_nx_n+b=(w_1,\cdots,w_n,b)^T(x_1,\cdots,x_n,1)=w^*x$ ，新的 $w*$ 仍记做 $w$

2.2 二项逻辑斯蒂回归模型的特点

首先，给出“几率”的定义：某个事件发生的概率为 $p$ ，那么，该事件的几率为 $\frac{p}{1-p}$ （发生的概率与不发生的概率之比）
接下来分析二项逻辑斯蒂模型中的第一项 $P(Y=1|x) = \frac{\exp(wx)}{1+\exp(wx)}$
- 经分析发现： $\frac{P(Y=1|x)}{1-P(Y=1|x)}=e^{wx}$ ，则有： $\log(\frac{P(Y=1|x)}{1-P(Y=1|x)}) = wx$
  其中， $\log\left (\frac{P(Y=1|x)}{1-P(Y=1|x)}\right )$ 称为对数几率
- 也就是说，输出Y=1对应的对数几率是由输入x的线性函数表示的模型 $wx$
从另外一个角度：对输入x的线性函数 $wx$ 进行逻辑斯蒂函数计算，得到该样本属于Y=1的概率

3. 二项逻辑斯蒂回归模型参数的估计

经过前面分析可以看到，二项逻辑斯蒂回归模型具体形式为：

⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ P (Y = 1 | x) = exp ( w x ) 1 + exp ( w x ) P (Y = 0 | x) = 1 1 + exp ( w x )

$\left\{\begin{matrix} P(Y=1|x) = \frac{\exp(wx)}{1+\exp(wx)}\\ P(Y=0|x) = \frac{1}{1+\exp(wx)} \end{matrix}\right.$

该模型具有一个位置的参数向量 $w$ ，那么如何能够利用训练数据集求得该参数向量？最直观的方式就是利用极大似然估计：

对于某一个输入样本 $x$ ，它的类别为 $y$ ，那么，它取得 $y$ 的概率到底为多大呢？根据逻辑斯蒂回归模型的定义，这个概率与y的具体取值有关：
$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ y = 1 时， p = exp ( w x ) 1 + exp ( w x ) \Rightarrow π (x) y = 0 时， p = 1 1 + exp ( w x ) \Rightarrow 1 - π (x)$ $\left\{\begin{matrix} y=1时，p=\frac{\exp(wx)}{1+\exp(wx)}\Rightarrow \pi(x)\\ y=0时，p=\frac{1}{1+\exp(wx)}\Rightarrow 1-\pi(x) \end{matrix}\right.$

上式可以写为一个紧凑的形式，即 $p = π (x) y \cdot [1 - π (x)] 1 - y$ $p={\pi(x)}^y·{\left[1-\pi(x)\right]}^{1-y}$

即对于逻辑斯蒂回归模型而言，某个输入样本 $x$ 对应的输出为 $y$ 的概率为 $p={\pi(x)}^y·{\left[1-\pi(x)\right]}^{1-y}$

基于极大似然估计的思想：给定 $N$ 个样本，最优的参数应该是使得这给定的 $N$ 个样本的联合概率密度 $\prod_{i=1}^{N}p_i$ （即似然函数）取得最大的参数w^*，即
$w * = a r g m a x w \prod i = 1 N p i = a r g m a x w \prod i = 1 N π (x i) y i \cdot [1 - π (x i)] 1 - y i$ $w^*= arg\;\underset{w}{max}\prod_{i=1}^{N}p_i= arg\;\underset{w}{max}\prod_{i=1}^{N}{\pi(x_i)}^{y_i}·{\left[1-\pi(x_i)\right]}^{1-y_i}$

具体实现中，不直接最大化 $N$ 个样本的似然函数，而是利用对数似然函数的最大化
$w * = a r g m a x w log (\prod i = 1 N p i)$ $w^*= arg\;\underset{w}{max}\log\left(\prod_{i=1}^{N}p_i\right)$
其中，
$L (w) = log (\prod i = 1 N p i) = \sum i = 1 N log p i = \sum i = 1 N log (π (x i) y i \cdot [1 - π (x i)] 1 - y i) = \sum i = 1 N y i log π (x i) + (1 - y i) log [1 - π (x i)] = \sum i = 1 N y i log (π (x i)) - y i log (1 - π (x i)) + log (1 - π (x i)) = \sum i = 1 N y i log (π ( x i ) 1 - π ( x i )) + log (1 - π (x i))$ $L(w)=\log\left(\prod_{i=1}^{N}p_i\right) \\ = \sum_{i=1}^{N}\log p_i\\ = \sum_{i=1}^{N}\log \left( {\pi(x_i)}^{y_i}·{\left[1-\pi(x_i)\right]}^{1-y_i}\right)\\ = \sum_{i=1}^{N}{y_i}\log {\pi(x_i)} + ({1-y_i})\log{\left[1-\pi(x_i)\right]}\\ = \sum_{i=1}^{N} y_i \log(\pi(x_i))-y_i\log(1-\pi(x_i))+\log(1-\pi(x_i))\\ = \sum_{i=1}^{N} y_i \log(\frac{\pi(x_i)}{1-\pi(x_i)})+\log(1-\pi(x_i))$
再将 $\pi(x)$ 代入，可以得到
$L (w) = \sum i = 1 N [y i (w x i) - log (1 + exp (w x i))]$ $L(w)= \sum_{i=1}^{N} \left[ y_i (wx_i)-\log(1+\exp (wx_i))\right]$

最终
$w * = a r g m a x w L (w) = a r g m a x w \sum i = 1 N [y i (w x i) - log (1 + exp (w x i))]$ $w^*= arg\;\underset{w}{max}L(w)=arg\;\underset{w}{max}\sum_{i=1}^{N} \left[ y_i (wx_i)-\log(1+\exp (wx_i))\right]$

得到的最终模型即为
$⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ P (Y = 1 | x) = exp ( w * x ) 1 + exp ( w * x ) P (Y = 0 | x) = 1 1 + exp ( w * x )$ $\left\{\begin{matrix} P(Y=1|x) = \frac{\exp(w^*x)}{1+\exp(w^*x)}\\ P(Y=0|x) = \frac{1}{1+\exp(w^*x)} \end{matrix}\right.$

4 多项逻辑斯蒂回归

二项逻辑斯蒂回归模型用于且仅能用于2类分类问题，如果是多类分类问题，需要对二项逻辑斯蒂回归模型进行拓展，得到多项逻辑斯蒂回归模型

对于某一个输入样本 $x$ ，它的输出类别的取值可能有多个（K个），此时，不能再用二项分布来描述这种分布了，而是需要利用多项式分布来描述类别的分布
取得每一个类别的概率还是以逻辑斯蒂分布的形式描述
即

5 二项逻辑斯蒂回归和多项逻辑斯蒂回归

二项逻辑斯蒂回归：它可能的取值为二项分布（0-1）分布，取得每一个数值的概率可以利用逻辑斯蒂分布表示

可能的取值	1	0
概率	$\frac{\exp(wx)}{1+\exp(wx)}$	$\frac{1}{1+\exp(wx)}$
解释	逻辑斯蒂分布函数的形式	1- 逻辑斯蒂分布函数的形式

多项逻辑斯蒂回归：它可能的取值为多项式分布，取得每一个数值的概率可以利用逻辑斯蒂分布表示

可能的取值	1	2	….	K
概率	$\frac{\exp(w_1x)}{1+\exp(w_1x+\cdots+w_{K-1}x)}$	$\frac{\exp(w_2x)}{1+\exp(w_1x+\cdots+w_{K-1}x)}$	….	$\frac{1}{1+\exp(w_1x+\cdots+w_{K-1}x)}$
解释	逻辑斯蒂分布函数的形式	逻辑斯蒂分布函数的形式	….	1- 逻辑斯蒂分布函数的形

参考文献

[1] Logistic Distribution - Paul Johnson.PDF
or
[2] 统计学习方法·李航·6.1
[3] Introduction to Probability, Statistics, and Random Processes by Hossein Pishro-Nik

李航·统计学习方法笔记·第6章 logistic regression与最大熵模型（1）·逻辑斯蒂回归模型