1. 最大熵原理的定义
最大熵原理是概率模型学习的一个准则。
朴素表述:不要把所有的鸡蛋放在一个篮子里
严谨表述:在满足约束条件的模型集合中选取熵最大的模型
- 投资角度:风险最小
- 信息论角度:保留最大的不确定性,熵最大
2. 最大熵模型的定义
3. 模型求解
3.1 优化问题
3.2 模型学习:极大似然估计
最大熵模型的学习归结为对偶函数的极大化(极大似然估计:对数似然函数极大化)。
在约束最优化问题中,常常利用拉格朗日对偶性,将原始问题转换为对偶问题,通过求解对偶问题而得到原始问题的解。
通过将最大熵模型的学习问题转换为具体求解对数似然函数极大化或对偶函数极大化的问题后,最大熵模型可以写成更一般的形式:
3.3 模型学习的最优化算法
目标函数(对数似然函数)是光滑的凸函数,因此多种最优化的方法都适用。
常用的最优化算法有:改进的迭代尺度法、梯度下降法、牛顿法、拟牛顿法等。
参考教程
- 李航《统计学习方法》