统计学习方法——第6章 逻辑斯谛回归与最大熵模型(个人笔记)

统计学习方法——第6章 逻辑斯谛回归与最大熵模型(个人笔记)

参考《统计学习方法》(第二版)李航

逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

6.1 逻辑斯谛回归模型

6.1.1 逻辑斯谛分布

定义6.1 (逻辑斯谛分布)

设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:

F(x)=P(X\leq x)=\frac{1}{1+e^{-(x-\mu )/\gamma }}

f(x)={F}'(x)=\frac{e^{-(x-\mu)/\gamma }}{\gamma (1+e^{-(x-\mu)/\gamma })^2}

其中,\mu为位置参数,\gamma为形状参数。

 6.1.2 二项逻辑斯谛回归模型

定义6.2 (逻辑斯谛回归模型)

二项逻辑斯谛回归模型条件概率分布如下:

P(Y=1|x)=\frac{\exp(w\cdot x +b)}{1+\exp(w\cdot x +b)}

P(Y=0|x)=\frac{1}{1+\exp(w\cdot x +b)}

其中,Y是输出,w为权重,b为偏置。

6.1.3 模型参数估计

逻辑斯谛回归模型学习时,应用最大似然估计法估计模型参数,从而得到模型估计。

设:

P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)

似然函数为

\prod_{i=1}^{N}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}

对数似然函数为

L(w)=\sum_{i=1}^{N}[y_i\log\pi(x_i)+(1-y_i)\log(1-\pi(x_i))]

=\sum_{i=1}^{N}[y_i\log\frac{\pi(x_i)}{1-\pi(x_i)}+\log(1-\pi(x_i))]

=\sum_{i=1}^{N}[y_i(w\cdot x_i)]-\log(1+\exp(x_i))]

求导,求L(w)的极大值,得到w的估计值。

6.1.4 多项逻辑斯谛回归

公式如下

P(Y=k|x)=\frac{\exp(w_k\cdot x )}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x )}

P(Y=K|x)=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x )}

6.2 最大熵模型

最大熵模型就是取熵最大的模型

6.2.1 最大熵原理

熵的公式为

H(P)=-\sum_xP(x)\log P(x)

原理:在学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型,通常用约束条件来确定概率模型的集合,所有也表述为,在满足约束条件下的模型集合中取熵最大的模型。

6.2.2 最大熵模型的定义

给定训练数据集

T=\left \{ (x_1,y_1),\cdots,(x_N,y_N) \right \}

其联合分布P(X,Y)和边缘分布P(X)为

\hat{P}(X=x,Y=y)=\frac{v(X=x,Y=y)}{N}

\hat{P}(X=x)=\frac{v(X=x)}{N}

其中,v(X=x,Y=y)表示样本(x,y)出现的频数,v(X=x)表示x出现的频数,N为训练样本数。

令特征函数为f(x,y):

f(x,y)=\left\{\begin{matrix} 1, &x,y \\ 0,&other \end{matrix}\right.

x,y满足某一事实。

特征函数f关于P(X,Y)的期望值:

E_{\hat{p}}(f)=\sum_{x,y}\hat{P}(x,y)f(x,y)

特征函数f关于P(Y|X)与P(X)的期望值:

E_{p}(f)=\sum_{x,y}\hat{P}(x)P(y|x)f(x,y)

如果两个期望值相等,则作为模型学习的约束条件。

定义 6.3(最大熵模型)

假设满足所有约束条件的模型集合为

C={P|E_p(f_i)=E_{\hat{p}}(f_i)

定义在条件概率分布P(Y|X)上的条件熵为

H(P)=-\sum_{x,y}\hat{P}(x)P(y|x)\log P(y|x)

则当H(P)为最大时,称为最大熵模型。

6.2.3 最大熵模型的学习

最大模型的学习等价于最优化问题:

\max_{P} H(P)=-\sum_{x,y}\hat{P}(x)P(y|x)logP(y|x)

s.t. E_p(f_i)=E_{\hat{P}}(f_i)

\sum_y P(y|x)=1

改写为最小值问题

\min_{P} -H(P)=\sum_{x,y}\hat{P}(x)P(y|x)logP(y|x)

s.t. E_p(f_i)-E_{\hat{P}}(f_i)=0

\sum_y P(y|x)=1

首先,引入拉格朗日乘子,定义拉格朗日函数为

L(P,w)\equiv -H(P)+w_0(1-\sum_y P(y|x))+\sum_{i=1}^{n}w_i(E_{\hat{P}}(f_i)-E_P(f_i))

=\sum_{x,y}\hat{P}(x)P(y|x)logP(y|x)+w_0(1-\sum_y P(y|x))+\\\sum_{i=1}^{n}w_i(\sum_{x,y}\hat{P}(x,y)f(x,y)-\sum_{x,y}\hat{P}(x)P(y|x)f(x,y))

最优化的原始问题是

\min_P\max_wL(P,w)

对偶问题是

\max_w\min_PL(P,w)

 对偶问题跟原始问题是等价的,求解对偶问题

先求,极小化问题\min_PL(P,w),记为

\psi (w)=\min_PL(P,w)=L(P_w,w)

再求极大化问题\max_wL(P,w),记为

\psi (w)=\max_wL(P,w)=L(P_w,w)

极小化对P(y|x)求导,极大化对w求导。

例子

 

 6.2.4 极大似然估计

对偶函数极大化等价于最大熵模型的极大似然估计。

6.3 模型学习的最优化算法

改进的迭代尺度法,梯度下降法,牛顿法,或拟牛顿法。

这里不做详细介绍。

猜你喜欢

转载自blog.csdn.net/pk296256948/article/details/124188172