广义线性模型解读必看文章

整理一下之前所学过的关于回归问题的思路:

  • 问题引入:房屋估价,给定新的房屋信息,预测出相应的房屋价格;
  • 学习过程:构建模型h(θ);
  • 线性回归:最小二乘法、梯度下降法、线性模型的概率解释;
  • 局部加权回归:带权重的线性回归、权值的钟形函数;
  • 逻辑回归:分类方法、梯度上升法、牛顿法、引出感知机学习算法;
  • 广义线性模型:指数分布族、给定概率分布推导出线性模型。

    这一节所讨论的重点就是最后的这一条内容,回顾讨论过的线性回归与逻辑回归的假设可知:

  • 在线性回归模型的概率解释中假设:

        

  • 在逻辑回归模型的推导中假设:

       

     通过下面的推导,将会看出以上这些模型都是广义线性模型的一个特例。

 

一、指数分布族(Exponential Family)

     首先,要引出指数分布族的概念。它的标准表达式为:

     

     其中,η是分布的自然参数(natural parameter)或典范参数(canonical parameter),T(y)叫做充分统计量(sufficient statistic),通常情况下T(y)=y;a(η)是对数分配函数(log partition function),而a、b与T一般都是给定的,随着η的变化,会得到不同的分布。

     下面来分别推导伯努利分布(Bernoulli distribution)与高斯分布(Gaussian distribution)的指数分布族标准表达式。

    1. 伯努利分布

      已知伯努利分布Bernoulli(Φ),Φ为分布的均值,随着Φ的变化,可以得到不同的伯努利分布。

     

     对应标准表达式可知:

     

    

     这表明选择合适的a、b、T,可以将伯努利分布写成指数分布族的标准形式。

   2. 高斯分布

    已知高斯分布N(μ,1),μ为分布的均值,方差对最终θ和h(θ)的选择没有影响,设置为1。

    

    对应标准表达式可知:

    

    同理,高斯分布也可以写成指数分布族的标准形式。

   3. 其他指数族分布

    还有许多其他分布属于指数分布族,如:

  • 多项式分布(multinomial),用来对多元分类问题进行建模;
  • 泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;
  • 伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;
  • β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;
  • Wishart分布(Wishart),用于协方差矩阵分布。

 二、广义线性模型(GLM)

   1. 三个假设:

  (1)

  (2)给定x,最终的目标是要求出T(y)期望E[T(y)|x],因为通常T(y)=y,故h(x)也可以被求出来。

         

  (3)自然参数η与输入特征x呈线性相关,即

        实数时,  

        向量时, 

   2. 最小二乘法:

   设定目标变量(响应变量)y是连续的,且y|x;θ服从高斯分布,由上面的推导可知η=μ,故可知假设函数h(x)为:

   

   3. 逻辑回归:

   由于考虑到二元分类问题,目标变量y取的值是0或1,很自然地就联想到可以利用伯努利分布来建立模型,假设y|x;θ服从伯努利分布Bernoulli(Φ),所以可知它的期望为Φ:

   

   同最小二乘法的推理过程,由伯努利分布的指数族的标准表达式可以反推出假设函数h(x)为:

   

    这里还有个有趣的知识点,参数η的方程g(η)给定了分布的均值,它被叫做正则响应函数(canonical response function),而它的倒数叫做正则关联函数(canonical link function),高斯家族的正则响应函数就是判别函数(identify function),伯努利的正则响应函数就是逻辑函数(logistic function)。

    

    4. Softmax回归:

    该模型是逻辑回归模型在多分类问题上的推广,响应变量y={1,2,...,k}且仍然取离散的值。从推导逻辑回归时所用到的伯努利分布可以联想到多项式分布(multinomial distribution),它是二项分布的推广。

  (1)指数分布族证明

    设置多项式分布有k个参数(Φ1,Φ2,...,Φk),根据多项式分布的性质可以将参数个数减少到k-1个(Φ1,Φ2,...,Φk-1)。

    

    为了将多项式分布表示为指数分布族,假设T(y)是一个k-1维的向量,要给出y=i(i=1,...,k-1)的概率:

    

   这里引入指示函数(indicator function)1{·}:

   

   (T(y))i表示向量T(y)的第i个个元素,于是T(y)与y之间的关系可以写成:

   

   (T(y))i的期望为:

   

   根据以上式子就可以开始推导多项式分布的指数分布族表达式。

   

    其中,

    

     (2)广义线性模型推导

     证明了多项式分布属于指数分布族后,接下来求取由它推导出的线性模型h(θ)。

     由连接函数反过来可以推导出Φi:

     

     

     

    

     上面这个函数表示从η到Φ的映射,称作softmax函数

     引用最开始的假设3,即η是x的线性函数,带入softmax函数可以得到:

     

     这个模型被应用到y={1,2,...,k}就称作softmax回归,是逻辑回归的推广。最终可以得到它的假设函数h(θ):

     

     (3)参数估计

     最后来讨论参数θ的估计,同最小二乘法与逻辑回归的极大似然估计求解方法,对于给定的训练样本{(xi,yi),i=1,2,...,m},可以得到参数θ的对数似然函数:

     

    就可以利用梯度上升法或牛顿法来求解参数θ的极大似然估计值了。

 

 参考文献:

【斯坦福---机器学习】复习笔记之牛顿方法


猜你喜欢

转载自blog.csdn.net/ITleaks/article/details/80336248