广义线性模型(GLM)

在线性回归中,y丨x;θ~N(μ,σ^2)。在逻辑回归中,y丨x;θ~Bernoulli(Φ)。这两个都是GLM中的特殊的cases。我们首先引入一个指数族(the exponential family)的概念。如果一个分布能写成下列形式,那么我们说这个分布属于指数族。

η是分布的自然参数(natural parameter ),比如伯努利分布中的Φ;T(y)是充分统计量(sufficient statistic ),个人理解是能充分体现数据特点的更低维的数据,在这里通常T(y)=y。式子看起来不友好,个人理解,无非是将一个分布写成了一个指数形式。概率P>0,而指数函数的也都是大于0的,通过b,a,T来修改指数函数得到我们想要的形式。

    以Bernoulli分布为例:


所以我们可得,b(y)=1,η^T=log(Φ/1-Φ),a(η)=log(1-Φ),该分布中η为标量,所以η=log(Φ/1-Φ),两边以e为底,得

Φ=1/(1+e^η)。令人惊讶的是,这恰好就是我们的logistics function。其建立的是一种概率和自然参数的关系,在逻辑回归中我们的参数就是我们手里的样本数据,想对样本做一个二分类,自然而然联系二项分布,从而推出logistics function。

接着我们来看高斯分布,在线性回归中我们通过假设误差ε~N(0,σ^2),然后通过最大似然推出目标是最小化


显然,与方差σ^2无关,为了简化,先设其为1.所以我们可以将高斯分布写成:
 
然后一一对应可以得到:
   

我们可以看到,不同的分布对应的解析式是不一样的。比如我们要对一个问题建模,首先我们分析这些数据服可能从什么分布,最简单的就对0,1问题建模必然首选伯努利分布,根据GLM推出我们需要的hypothesis。下面就介绍怎么使用GLM。

要想使用GLM解决问题,我们必须遵守三个假设:

1.y丨x;θ~exponentialfamily(η),即给定x和θ,y是服从指数族的某个分布的。

2.h(x)=E[y丨x]。以logistics regression为例,我们预测的h(x)是一个概率,所以有

   hθ(x) = p(= 1|xθ) = 0 · p(=0|xθ) + 1 · p(= 1|xθ) = E[y|xθ].)

3.η θTx ;即η和x满足线性关系

根据这三个假设,我们就能得到线性回归和逻辑回归中的假设是如何来的。线性回归中:


逻辑回归中:


这也解释了当我们做LR二分类的时候为什么会采取该假设,因为二分类是服从伯努利分布的,而我们从伯努利分布推出上式,自然就该应用此假设。

猜你喜欢

转载自blog.csdn.net/kwame211/article/details/80348245