第3章-从线性概率模型到广义线性模型(2)

原文参考
斯坦福机器学习cs229-2-Generative Learning algorithms
https://mathdept.iut.ac.ir/sites/mathdept.iut.ac.ir/files/AGRESTI.PDF
http://data.princeton.edu/wws509/notes/c4a.pdf
http://www.cnblogs.com/ooon/p/5845917.html


回顾上节文章中提到的logistic和probit模型:

我们假定了潜变量模型
y*=xβ+u
(y=1,when y*>0; y=0,when y*<=0)
中的残差变量服从对应的是logistic分布或正态分布,并且我们假定
$P(y=1|x)=G(β_0+β_1x_1+β_2x_2+…+β_nx_n)=G(β_0+xβ)=G(xβ) $
的变换函数G()为对应的"标准的Logistic随机变量的累计分布函数"或
“标准的正态随机变量的累计分布函数”。

那么这两个模型的因变量都是离散的或者说是定性( or 分类)变量。
这类变量除了第一节讨论的名义变量中的二元变量外,还有下面三种形式:

  • 名义变量中的多元变量
  • 定序变量
  • 计数变量

备注:
1,由0-1二元变量的期望等于P(Y=1|x)的概率可知,我们的研究问题也可以是针对因变量为概率型
2,对于因变量为数据值的数据,也是可以分组为上述几种离散数据的形式的
3,对于因变量的意义为“占比”时,可以转换为计数问题
4,根据变量的层级关系:名义变量<定序变量 <计数或者说间隔变量,我们的模型适用情况如下,低层的模型可以适用于高层,反之不成立。举例说明,针对名义变量设计出来模型可以适用于定序变量,但是针对定序变量设计出来的模型不适用于名义变量。但是要记住一点,这种跨层级模型使用方式并不是最优的,因为模型并没有充分利用数据中的信息。

一,离散变量的概率分布
1,伯努利分布(0-1分布)

略...
例子:扔硬币正面朝上的概率

2,二项分布

略...
np之积>5时,分布近似正态分布
例子:扔硬币k次正面朝上的概率p

3,多项分布

略...
例子:扔骰子,k次中均由其中一个面(比如说点数6)朝上的概率

4,负二项分布

略...
例子:扔硬币,刚好在第r+k次试验出现第r次正面朝上的概率

5,泊松分布

X:一定时间或空间内,稀有事件发生的个数,一般服从泊松分布
当二项分布的p很小,n很大时,极限分布为泊松分布
当然,二项分布、泊松分布与正态分布之间都有关系,[参见](https://wenku.baidu.com/view/6cd5121da300a6c30c229fbb.html)

5.1 泊松分布的:overdispersion
我们知道,理论上,泊松分布的期望和方差是相等的,但此时若观测到的样本方差系统地大于分布假设下的方差,就出现了所谓的 “超散布性”(overdispersion),类似地,若出现方差偏小的情况,也就相应出现了 “超聚集性”(underdispersion)。

5.2 当泊松分布出现overdispersion现象时,通常可以转换成使用负二项分布进行建模。
负二项分布可以看成是广义的泊松分布,它可由 X|λ∼Poisson(λ) 且 λ∼Gamma(α,β),推导得到。

(1) 如果, X λ P o i s s o n ( λ ) f ( x λ ) = P r ( X = x λ ) = λ x e λ x ! X|λ∼Poisson(λ) ,则 f(x|λ)=Pr(X=x|λ)=\frac{λ^xe^{−λ}}{x!}
(2) 且, $λ∼Gamma(α,β),则 f(λ)= \frac{aβ}{Г(β)}λ{β-1}e^{-aλ} $
(3) 我们可以得到,联合概率
P r ( X = x λ ) P r ( λ ) Pr(X=x|λ)Pr(λ)
$=\frac{λxe{−λ}}{x!}*\frac{aβ}{Г(β)}λ{β-1}e^{-aλ} $
$=\frac{aβ}{x!•Г(β)}λ{x+β-1}e^{-(a+1)λ} $

则,x的边际分布即为负二项分布:
P r ( X = x ) = a β x ! Г ( β ) 0 λ x + β 1 e ( a + 1 ) λ d λ Pr(X=x)=\frac{a^β}{x!•Г(β)}\int^{∞}_{0}λ^{x+β-1}e^{-(a+1)λ}dλ
= C n + β 1 n ( a a + 1 ) β ( 1 a + 1 ) n =C_{n+β-1}^{n}(\frac{a}{a+1})^β(\frac{1}{a+1})^n

表示,第r=β次成功的负二项分布,且成功的概率为 p = a a + 1 p=\frac{a}{a+1}

6,引入先验信息

二项分布或多项分布中,随机事件发生的概率是固定的,但是如果对于总体中的不同个体,,随机事件发生是概率是不同时,在贝叶斯研究体系下,我们就可以引入先验概率对不同个体的发生概率进行的估计,然后再根据后验概率进行调整。

6.1 共轭分布

如果先验分布 p(θ) 和似然函数 p(X|θ) 可以使得先验 p(θ) 和后验分布 p(θ|X) 有相同的形式,那么就称先验分布与似然函数是共轭分布.

共轭性质:

  • 当先验为 Beta ,似然为 Binomial分布时,后验仍然为 Beta ,但是这里的 Beta 是融入了 Binomial分布的计数的;
  • 当先验为 Dirichlet,似然为 Multinomial 分布时,后验仍然为 Dirichlet,但是这里的 Dirichlet是融入了 Multinomial 分布的计数的.

6.2 Beta-Binomial distribution
假设,X|π∼Bin(n,π),π∼Beta(α,β)
我们就可以根据数据得到π的先验概率,进而计算π的后验概率,最终推断出似然函数。

6.3 Dirichlet-MultiNomial distribution

二,Poisson 回归

当因变量研究的是计数或比率问题时,我们假设残差u服从Poisson分布(回归分析中假定x是确定性变量,由于残差服从泊松分布,所以因变量y也服从于泊松分布),G()变换为指数函数exp() (连接函数link=log())。则,此时对应的回归方程,则是Poisson回归。

1)Poisson分布
假设随机变量Y,服从参数为μ的泊松分布,则y=0,1,2…整数值的概率分布如下:
P r { Y = y } = e μ μ y y ! Pr\{Y=y\}=\frac{e^{-μ}μ^y}{y!}

性质1:
且,满足(μ>0):
E ( Y ) = v a r ( Y ) = μ E(Y)=var(Y)=μ

从上式可知,任何影响均值的因素都会影响到方差,所以,同方差性假设不再适用与泊松数据。

性质2:
如果, Y 1 Y_{1} ~ P ( μ 1 ) P(μ_1) Y 2 Y_{2} ~ P ( μ 2 ) P(μ_2) ,则 Y 1 + Y 2 Y_{1}+Y_{2} ~ P ( μ 1 + μ 2 ) P(μ_1+μ_2)

2)Poisson回归

假设我们有n个观测值, y 1 , y 2 . . . , y n y_1,y_2...,y_n 是分别服从泊松分布的随机变量,且 Y i Y_{i} ~ P ( μ i ) P(μ_i)

(a)假设随机变量的均值(同时为方差)为 μ i μ_i 与解释变量x成简单线性关系:

μ i μ_i ~ x i β x_i&#x27;β

上式缺点:公式左侧非负,而右侧是实数

(b)log-linear变换

l o g ( μ i ) log(μ_i) ~ x i β x_i&#x27;β 则, μ i μ_i ~ e x p { x i β } exp\{x_i&#x27;β\}

与第七章将要讲到的加法模型不同,该模型表示的是乘法效应

3)比率问题
单位时间或空间上的计数即为比率,对于泊松分布来说,问题转化为u/t
l o g ( μ / t ) = α + β x log(μ/t)=α+βx
l o g ( μ ) l o g ( t ) = α + β x log(μ)−log(t)=α+βx
l o g ( μ ) = α + β x + l o g ( t ) log(μ)=α+βx+log(t)
μ = e x p ( α + β x + l o g ( t ) ) = ( t ) e x p ( α ) e x p ( β x ) μ=exp(α+βx+log(t))=(t)exp(α)exp(βx)

三,log-linear model

对数变换的方式适用于很多模型,型如: l o g ( μ i ) log(μ_i) ~ x i β x_i&#x27;β 则, μ i μ_i ~ e x p { x i β } exp\{x_i&#x27;β\}
其中, x i β x_i&#x27;β 为多元线性组合,而此时离散的因变量y,可以服从上述离散分布或未列出来的连续分布中的任何一种形式,然后我们求得方程 E ( y x ) = μ E(y|x)=μ

四,GLM(广义线性模型)

1,指数族

如果,一些分布通过变换能改写成如下形式,则我们称这些分布属于指数族

p ( y ; η ) = b ( y ) e x p ( η T T ( y ) a ( η ) ) p(y;η)=b(y)exp(η^TT(y)-a(η))

此处,
η :称作自然参数,对于有限的函数而言, η 的集合被称为自然参数空间
T (y) :称作充分统计量,通常 T (y) = y
a(η) :配分函数的对数形式,实际上它是归一化因子的对数形式
即, e a ( η ) e^{-a(η)} 使得 p ( y ; η ) p(y;η) 的累计概率/y的整体 = 1 (归一化)

当确定了T()时,a、b 决定了确定了服从参数为η的分布族

2,GLM

  • y | x; θ ∼ ExponentialFamily(η).给定x和θ,y的条件分布服从参数为η的指数族分布
  • 我们的目标是用x来估计T(y)。大多数情况下,T(y)=y,即我们要根据我们的假设h下,求出h(x)=E(y|x)
  • 参数η与x是线性关系: η = θ T x η = θ^T x

满足上述三个条件的模型,我们成为广义线性模型。

上一节:第3章-从线性概率模型到广义线性模型(1)

猜你喜欢

转载自blog.csdn.net/tongweiganglp/article/details/52035371