参考链接:https://www.jianshu.com/p/e7c13002440d

https://www.cnblogs.com/wxquare/p/5858008.html

最大熵模型属于运用最大熵原理的多分类模型，这个模型在面试中经常会与逻辑回归一起问，比如，为什么说二者是类似的？要解答这个问题，需要对两个模型的原理都有清晰的理解，很多面试者虽然能从书上背来一两句结论，比如二者都是求的最大似然概率，但是只要深入问下去，都会面露囧色。本文试图尽可能用清晰简洁的语言说明白最大熵模型的原理，以及它与最大似然的关系。

1、分清最大熵思想与最大熵模型

我们平常说的最大熵模型，只是运用最大熵思想的多分类模型，最大熵的思想却是一种通用的思维方法。所以，理解最大熵模型只需要搞清楚两件事就可以：

最大熵思想是什么
最大熵模型是如何运用最大熵思想的

2、最大熵思想

我们知道，分类模型有判别模型和生成模型两种，判别模型是要学习一个条件概率分布 P(y|x)。
举例说明，x是病人身体指标，体温、血压、血糖，y是各种可能的疾病，可简化为小病、中病、大病三种。

现在，我们有一个样本x1={体温：30，血压：160，血糖：60}，那么P(y|x1)就是一个概率分布，该分布的值就是上面简化的三种，小病、中病、大病。可能的概率分布如下所示：

小病	中病	大病
1/2	1/4	1/4
1/4	1/3	5/12
1/3	1/3	1/3

当然，这样的分布有无数种，上面只是举例说明而已。那么，问题来了，在这无数种概率分布中，哪一个才是好的呢？

为了选出一个好的分布，可以做如下两步：

1、看看以往的病例中，指标x1={体温：30，血压：160，血糖：60}和三种病之间的关系，如果没有这样的病例，也就是说我们没有过往的经验可以参考，那么，就直接选一个熵最大的分布就是，也就是上面表格中的第三个分布，因为均匀分布总是同类分布中熵最大的分布。
2、如果查看以往病例后，我们得到一个经验，指标x1={体温：30，血压：160，血糖：60}有1/2的概率是小病，于是我们有了一定的经验知识，此时，最好的分布就是符合这个经验知识的前提下，熵最大的分布，显然，第一个分布就是最好的分布。

以上，我们就是运用了最大熵的思想。总结来说，最大熵的思想是，当你要猜一个概率分布时，如果你对这个分布一无所知，那就猜熵最大的均匀分布，如果你对这个分布知道一些情况，那么，就猜满足这些情况的熵最大的分布。

机器学习--最大熵模型

1、分清最大熵思想与最大熵模型

2、最大熵思想

猜你喜欢