一、概述
(1)最大熵模型
最大熵模型是概率模型的一个学习准则,可以应用于各种概率模型。
以条件概率分布模型为例:
模型:
也是优化策略,求解max Pw,得到参数w
策略:
约束优化问题:
对偶形式的最优化问题。
同模型,求max Pw得到参数w。
(2)逻辑回归
二项逻辑斯蒂回归模型:
多项逻辑斯蒂回归模型:
优化算法:
求解下面似然函数的最大估计值,得到参数w
有了w使用模型分别计算出两个类别的概率值,得到分类结果。
二、主要内容
(1)最大熵
最大熵原理是概率模型学习的一个准则。最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。
//=================补充==================//
直观地,最大熵原理认为要选择的概率模型首先必须满足已有的事实,即约束条件。在没有更多信息的情况下,那些不确定的部分将其设定为都是“等可能的”也就是概率是相等的,这样的熵是最大的。最大熵原理通过熵的最大化来表示等可能性即等概率。“等可能”不容易操作,而熵则是一个可优化的数值指标。
因此熵是一个衡量概率相等成都的量化指标,熵越大也代表无序性越大,包含的信息越多。
图6.2提供了用最大熵原理进行概率模型选择的几何解释。概率模型集合P可由欧氏空间中的单纯形(simplex)表示,如左图的三角形(2-单纯形)。一个点代表一个模型, 整个单纯形代表模型集合。右图上的一条直线对应于一个约束条件,直线的交集对应于满足所有约束条件的模型集合。一般地,这样的模型仍有无穷多个。学习的目的是在可能的 模型集合中选择最优模型,而最大熵原理则给出最优模型选择的一个准则。
//=====================================//
最大熵原理可以应用在求各样概率模型中,这里以求条件概率模型为例讲解求解过程。
约束条件:
最大熵模型相对于朴素贝叶斯的区别是包含了多个约束条件。
(1)下面介绍约束条件,用特征函数f(x,y)来表示。
一个模型中可能包含多个这样的约束条件。
(2)另外构造一个逻辑上的约束。
因为如果能从训练集中得到规律,那么有公式:P(X,Y) = P(Y|X)P(X),因此有上面的等式,这也是其中一个要满足的约束条件。
其中P(x)和P(X,Y)是从训练集中得到的已知的结果,P(Y|X)是待求的结果。
对比朴素贝叶斯分类,就是从训练数据集中总结出联合概率分布的经验分布和边缘概率分布的经验分布。用公式P(Y|X) = 即可求出条件概率分布。其中计算公式如上。
这是不包含约束条件的模型计算方法。如果包含约束条件,就要用更一般的方法:最大熵模型。
//===============预备知识================//
熵的计算公式为:
条件熵的计算公式为:
//========================================//
构建优化策略:
现在有了上面条件熵的计算公式和约束,我们的目标是求出最大的熵,同时要满足约束条件,因此有:
稍微转化一下有:
求解以上约束问题的解就是最大熵模型的解。
求解时可以将以上约束问题转化为无约束问题。
内部的极小化问题是先对P(y|x)求偏导,结果只剩下w
所以有:
所以有:
因此有:
对其求最大化得到的w就是模型的参数。也就得到了条件概率P(y|x)
(2)逻辑回归
模型:
策略:
//===================补充=================//
//=======================================//
优化算法:
使用最大似然估计
多项逻辑斯谛回归
- 算法:常用牛顿法,梯度下降法,改进的迭代尺度法