机器学习算法之:指数族分布与广义线性模型

参考NG的lecture note1 part3 
本文将首先简单介绍指数族分布,然后介绍一下广义线性模型(generalized linear model, GLM), 最后解释了为什么逻辑回归(logistic regression, LR) 是广义线性模型的一种。

指数族分布

指数族分布 (The exponential family distribution),区别于指数分布(exponential distribution)。在概率统计中,若某概率分布满足下式,我们就称之属于指数族分布。 

                                                                       p(y;\eta)=b(y)\exp(\eta^T T(y)-a(\eta))

其中\eta是natural parameter, T(y)是充分统计量, \exp^{-a(\eta))}是起到归一化作用。 确定了T,a,b我们就可以确定某个参数为\eta的指数族分布. 
统计中很多熟悉的概率分布都是指数族分布的特定形式,如伯努利分布,高斯分布,多项分布(multionmal), 泊松分布等。下面介绍其中的伯努利分布和高斯分布。

  • 伯努利分布                                         p(y;\phi)=\phi^y (1-\phi)^{1-y} \\=exp[y\log\phi+(1-y)\log(1-\phi)] \\=exp[y\log \frac{\phi}{1-\phi}+log(1-\phi)]
    把伯努利分布可以写成指数族分布的形式,且                                             T(y) = y \\ \eta=\log \frac{\phi}{1-\phi} \\a(\eta) = -\log(1-\phi)=\log(1+e^\eta) \\ b(y)=1
    同时我们可以看到 \phi=\frac{1}{1+e^{-\eta}} , 居然是logistic sigmoid的形式,后面在讨论LR是广义线性模型时,也会用到。

高斯分布

高斯分布也可以写为指数族分布的形式如下: 

                                                p(y;\mu) =\frac{1}{\sqrt{2\pi}}\exp(-\frac{1}{2}(y-\mu)^2) \\ =\frac{1}{\sqrt{2\pi}} \exp(-\frac{1}{2} y^2)\exp(\mu y-\frac{1}{2} \mu^2)

我们假设方差为1,当然不为1的时候也是可以推导的。上述我们就把高斯分布写为了指数族分布的形式,对应的           

                                                        \eta = \mu \\ T(y) = y \\ a(\eta) = \mu^2/2 = \eta^2 /2 \\ b(y)=\frac{1}{\sqrt{2\pi}} \exp(-\frac{1}{2} y^2)

广义线性模型 (Generalized linear model, GLM)

本节将讲述广义线性模型的概念,以及LR,最小二乘为何也属于广义线性模型。

考虑一个分类或回归问题,我们就是想预测某个随机变量yy 是某些特征(feature)x的函数。为了推导广义线性模式,我们必须做出如下三个假设

  1. p(y|x;\theta)服从指数族分布
  2. 给了x, 我们的目的是为了预测T(y)的在条件x下的期望。一般情况T(y)=y, 这就意味着我们希望预测h(x)=E[y|x]
  3. 参数\eta和输入x 是线性相关的:\eta = \theta^T x

在这三个假设(也可以理解为一种设计)的前提下,我们可以推导出一系列学习算法,称之为广义线性模型(GLM)。下面我们可以推导出一系列算法,称之为广义线性模型GLM. 下面举两个例子:

最小二乘法

假设p(y|x;\theta) \sim N(\mu,\sigma^2)u 可能依赖于x,那么 

                                                             h_\theta(x) = E[y|x;\theta] \\ =\mu \\ =\eta \\ = \theta^T x
第一行因为假设2,第二行因为高斯分布的特点,第三行根据上面高斯分布为指数族分布的推导,第四行因为假设3

逻辑回归 LR

考虑LR二分类问题,y∈0,1y∈0,1, 因为是二分类问题,我们很自然的选择p(y|x;\theta)~Bernoulli(\phi),即服从伯努利分布。那么 

                                                         \eta = \mu \\ T(y) = y \\ a(\eta) = \mu^2/2 = \eta^2 /2 \\ b(y)=\frac{1}{\sqrt{2\pi}} \exp(-\frac{1}{2} y^2)
第一行因为假设2,第二行因为伯努利分布的性质,第三行因为伯努利分布为指数族分布时的推导,第四行因为假设3.

所以我们终于知道逻辑回归LR的P(y=1|x)=\frac{1}{1+e^{-\theta^T x}}从何而来了。它即是, : 
1 在假设预测值y 服从伯努利分布 
E(y|x;\theta)利用广义线性模型的假设, 符合逻辑回归模型

参考: 
本文主要参加Andrew ng的机器学习讲义

猜你喜欢

转载自blog.csdn.net/Harrytsz/article/details/81412768