ML—广义线性模型导论

Andrew Zhang
Tianjin Key Laboratory of Cognitive Computing and Application
Tianjin University
Nov 3, 2015

本文主要讲解我对GLM的理解，并将GLM推广到逻辑回归，线性回归和Softmax回归理论中。

一、指数分布族(ExponentialFamily)
如果一个分布密度函数可以写成如下的形式
$p(y,\eta)=b(y)e^{\eta^TT(y)-a(\eta)} \tag{1-1}$
其中， $\eta$ 被称为自然参数，标准参数或者规范参数； $T(y)$ 被称为充分统计量；而 $a(\eta)$ 一般被称为对数分函数。 $T,a,b$ 确定了参数为 $\eta$ 的一种分布函数。

二、GLM的三个假设
1、线性模型的假设
线性模型有如下三条假设
$y=x\beta+\epsilon$
$E(\epsilon)=0$
$cov(\epsilon,\epsilon)=\sigma^2I_{n*n}$
$\tag{2}$
2、广义线性模型的三条假设
广义线性模型需要满足y关于x的条件概率和模型设定三个假设：
假设一： $y|x;\theta$ ~ $ExponentialFamily(\eta)$ 对于给定的 $x$ 和 $\theta$ , $y$ 的分布服从参数为 $\eta$ 的指数分布族
假设二：对于给定的 $x$ ,目标是预测给定 $x$ 下 $T(y)$ 的期望
假设三：自然参数 $\eta$ 和输入 $x$ 是线性关系： $\eta=\theta^Tx$ (如果 $\eta$ 是向量，那么 $\eta_i=\theta_i^Tx$ )
3、对GLM三个假设的说明
3.1 假设1的解释
假设一讲的是广义线性模型的核心。广义线性模型广体现在 $y$ 服从的是一个指数分布族。简单来说，就是对于所有的样本 $y$ 服从的是同一个分布，只不过不同样本之间这个分布的参数不同。例如若所有样本的 $y$ 都是伯努利分布，则不同的样本分别对应与 $x$ 相关的 $\phi$ (逻辑回归)，若若所有样本的 $y$ 都是正态分布，则不同的样本分别对应与 $x$ 相关的 $\mu$ (最小二乘)。。。。。
3.2 假设2的解释
主要是说GLM的输出。输出的 $h_\theta(x)=E[T(y)|x]$ 。
3.3 假设3的解释
对于假设3，意味着在任何出现 $\eta$ 的地方，我们都需要用 $\eta=\theta^Tx$ 或者 $\eta_i=\theta_i^Tx$ 替换，以此转化为关于输入 $x$ 的线性关系。

三、GLM参数求解
对于GLM模型参数 $\theta$ 的求解，一般都要利用极大似然估计，求解出使得采样样本取得最大概率的参数 $\theta$ 。
对于训练样本 $(x_1,y_1),(x_2,y_2),...,(x_m,y_m)$ ，似然函数为
$L(\theta)=\prod_{i=1}^m{p(y_i|x_i;\theta)} \tag{3}$
后面只需要对公式(3)进行求解，得到使似然函数达到极大值时对应的 $\theta$ 即可。

四、GLM—逻辑回归
在逻辑回归中，假设类别标签服从伯努利分布 $Bernouli(\phi)$ ，即 $p(y=1;\phi)=\phi,p(y=0;\phi)=1-\phi$ ,在这里 $\phi$ 与 $x$ 有关。也就是说不同的输入 $x$ 可以得到不同的伯努利分布，这就是逻辑回归的伯努利分布族。
首先我们来推导一下，证明伯努利分布~ $Bernouli(\phi)$ 满足指数分布族形式(1)。
$p(y;\phi)=\phi^y(1-\phi)^{1-y}$
　　　　 $=e^{ylog\phi+(1-y)log(1-\phi)}$
　　　　 $=e^{ylog\frac{\phi}{1-\phi}+log(1-\phi)}$
　　　　 $\tag{4-1}$
对比式(1)可得
$\eta=log\frac{\phi}{1-\phi}$
$T(y)=y$
$a(\eta)=log(1-\phi)$
$b(y)=1$
根据上式 $\eta=log\frac{\phi}{1-\phi}$ ，我们可以得到
$\phi=\frac{1}{1+e^{-\eta}} \tag{4-2}$
根据GLM假设3— $\eta=\theta^Tx$ ，可以进一步的得到
$\phi=\frac{1}{1+e^{-\theta^Tx}} \tag{4-3}$
公式4-3实际上说的逻辑回归中样本特征 $x$ 与样本标签所服从的伯努利分布参数 $\phi$ 之间的关系。这里也解释了为什么逻辑回归要采用单极型函数。
对于指数分布族形式得到的式子 $T(y)=y$ ，可以得到GLM模型的输出 $h_\theta(x)$ 如下关系
$h_\theta(x)=E[y|x]=\phi*1+(1-\phi)*0=\phi \tag{4-4}$
结合公式(4-3)可得
$h_\theta(x)=\phi=\frac{1}{1+e^{-\theta^Tx}} \tag{4-5}$
综上，可得逻辑回归模型的数学表达形式如下：
$p(y|x;\theta)=p(y;\phi)=\phi^y(1-\phi)^{1-y}=h_\theta(x)^y(1-h_\theta(x))^{1-y} \tag{4-6}$
后面的工作就是对于训练样本训练模型得到参数 $\theta$ ，然后对测试样本进行预测即可。逻辑回归模型训练采用极大似然估计就可以，似然函数如下，
$L(\theta)=\prod_{i=1}^m{p(y_i|x_i;\theta)}=\prod_{i=1}^m{h_\theta(x_i)^y_i(1-h_\theta(x_i))^{1-y_i}} \tag{4-7}$

五、GLM—线性回归
对于线性回归的广义线性模型解释中，需要假设因变量 $y$ 服从正态分布 $N(\mu,\sigma^2)$ 。
首先还是先来看看高斯分布的指数分布族变换
令 $y|x$ ~ $N(\mu,\sigma^2)$ ，我们考虑简单情况 $\sigma^2=1$ 所以有下式
$p(y;\mu)=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}(y-\mu)^2)$
　　　　 $=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^2)exp(\mu y-\frac{1}{2}\mu^2)$
　　　　 $\tag{5-1}$
对应于式子1，可得到如下表达式：
$\eta=\mu$
$T(y)=y$
$a(\eta)=\frac{1}{2}\mu^2=\frac{1}{2}\eta^2$
$b(y)=\frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^2)$
根据GLM假设3— $\eta=\theta^Tx$ ，可以进一步的得到
$\mu=\eta=\theta^Tx \tag{5-2}$
接下来，利用GLM的第二个假设可以得到GLM模型的输入 $h_\theta(x)$ 如下关系
$h_\theta(x)=E[y|x;\theta]=\mu=\eta=\theta^Tx \tag{5-3}$
综上可得线性回归模型的数学表达形式如下：
$p(y|x;\theta)=\frac{1}{\sqrt{2\pi}}exp(-\frac{(y-\mu)^2}{2})=\frac{1}{\sqrt{2\pi}}exp(-\frac{(y-\theta^Tx)^2}{2}) \tag{5-4}$
接下来，只需要利用极大似然法求解参数 $\theta$ 即可。如果知道线性回归概率解释的话，会发现这个就是线性回归的概率解释是一样的，很容易就转化为最小二乘形式了。

六、GLM—SoftMax回归
SoftMax可以看成是伯努利分布的扩展，伯努利是二分类，SoftMax是多分类。同理就可以得到SoftMax回归所需要的关于类别标签 $y$ 的分布假设了—多维伯努利分布。
由于SoftMax回归稍微有点麻烦，首先来对用到的符号进行说明。
设 $p(y=i)=\phi_i,i=1,2,...,k，表示y属于每一个类别的概率，由于\sum_{i=1}^k\phi_i=1$ 因此对于k分类问题只需要k-1个参数，但是为了后面表示方便我们仍旧使用 $\phi_k这个符号，不过他不表示多维伯努利分布的模型参数，\phi_k=1-\sum_{i=1}^{k-1}\phi_i$ 。
为了在指数分布族表示的时候更清晰，我们引入(k-1)*1维向量 $T$
$T(1)=[1,0,0,...,0,0]^T$
$T(2)=[0,1,0,...,0,0]^T$
$T(k-1)=[0,0,0,...,0,1]^T$
……
$T(k)=[0,0,0,...,0,0]^T$
我们用 $(T(y))_i$ 表示 $T(y)$ 的第i个元素, $1\{y=i\}$ 返回一个0或1，表示类别是否属于i，有 $(T(y))_i=1\{y=i\}$ 下面就会发现这样表示会使表述很清晰。
对于SoftMax，第一步仍旧是转换为指数分布族形式
$p(y;\phi)=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}...\phi_k^{1\{y=k\}}$
　　　　 $=\phi_1^{1\{y=1\}}\phi_2^{1\{y=2\}}...\phi_k^{1-\sum_{i=1}^{k-1}1\{y=i\}}$
　　　　 $=\phi_1^{(T(y))_1}\phi_2^{(T(y))_2}...\phi_k^{1-\sum_{i=1}^{k-1}{(T(y))_i}}$
　　　　 $=exp((T(y))_1log(\phi_1)+(T(y))_2log(\phi_2)+...+(1-\sum_{i=1}^{k-1}{(T(y))_i})log(\phi_k))$
　　　　 $=exp((T(y))_1log(\phi_1/\phi_k)+(T(y))_2log(\phi_2/\phi_k)+...+(T(y))_{k-1}log(\phi_{k-1}/\phi_k)+log(\phi_k))$
　　　　 $=exp(\eta^T(T(y))+log(\phi_k))$
$\tag{6-1}$
其中,
$\eta=(log(\phi_1/\phi_k),log(\phi_2/\phi_k),..,log(\phi_{k-1}/\phi_k))^T$
$a(\eta)=-log(\phi_k)$
$b(y)=1$
有 $\eta_i=log(\phi_i/\phi_k)，k=1,2,...,k-1$ ，这里添加一个 $\eta_k=log(\phi_k/\phi_k)=0$
即 $\phi_i=\phi_ke^{\eta_i}$
又因为 $\sum_{i=1}^{k}\phi_i=1$
$\phi_k=\frac{1}{\sum_{i=1}^{k}e^{\eta_i}}$
所以SoftMax对应的GLM一般过程第一步得到
$\phi_i=\frac{e^{\eta_i}}{\sum_{i=1}^{k}e^{\eta_i}}\tag{6-2}$
由GLM假设3的向量形式
$\eta_i=\theta_i^Tx \tag{6-3}$
由于只有k-1个参数，这里仅对于 $i=1,2,...,k-1$ 成立，为了保持一致，根据公式6-2可以令 $\eta_k=\theta_k^Tx=0$ 。
将公式(6-2,6-3)带公式(6-1)便可以得到Softmax回归模型的数学表达式如下
$p(y|x;\theta)=...(带入过程省略)\tag{6-4}$
对于模型的求解，利用训练样本求解极大似然估计即可训练模型得到模型参数 $\theta_i$ 。
在这里写一个简单的式子，就是模型对于属于 $x$ 判断输出的概率计算公式如下：
$p(y=i|x;\theta)=\phi_i=\frac{e^{\eta_i}}{\sum_{i=1}^{k}e^{\eta_i}}=\frac{e^{\theta_i^Tx}}{\sum_{i=1}^{k}e^{\theta_i^Tx}} \tag{6-5}$
利用GLM第二条假设可知Softmax模型的输出形式如下：
$h_\theta(x)=E[T(y)|x;\theta]$
　　　　　 $=[\phi_1,\phi_1,,...,\phi_{k-1}]^T$
$\tag{6-6}$
七、GLM小结
总结一下GLM会发现GLM的精髓体现在GLM的第一条假设里面。利用一个分布族来建模，对于不同的输入 $x$ 分别对应不同的分布族参数。而模型的输出由GLM的第二条假设—模型期望来决定。而GLM的第三条假设用来确定模型的线性性质。

ML—广义线性模型导论

猜你喜欢