机器学习数学原理——极大似然估计法

事实上机器学习的大部分算法都是以数理统计和概率论为理论基础构建的。笔者在学习机器学习的过程中，意识到其实机器学习中的很多假设背后都是有着数学原理支撑的，从而使得这些假设不再是“看似合理”。这里笔者便将一些学习过程中的理解整理成一个系列，希望能够在帮助自己整理知识结构体系的同时，也能给大家带来一些帮助。资料参考的是华中科技大学出版社出版由刘次华主编的《概率论与数理统计（第二版）》以及斯坦福公开课CS229（Andrew Ng）。

需要说明的是，这个系列可能不会在应用机器学习方面有太大的帮助，因为博文偏向于原理性而不是如何使用。如果读者希望深入了解机器学习，希望理解机器学习的本质，相信这篇博文能够给大家一些帮助。老规矩，由于笔者实力实在有限，如果有任何错误或者不妥的地方，欢迎大家批评之处。

这个系列的第一篇博文笔者就准备给极大似然估计法了\^_^/。

1 极大似然估计法介绍

极大似然估计法（the Principle of Maximum Likelihood ）由高斯和费希尔（R.A.Figher）先后提出，是被使用最广泛的一种参数估计方法，该方法建立的依据是直观的极大似然原理。

1.1 极大似然原理

极大似然原理其实最简单的理解就是：样本所展现的状态便是所有可能状态中出现概率最大的状态。

一个试验有若干个可能结果A1，A2，A3，…，An，若一次实验的结果是Ai发生，则自然认为Ai在所有可能结果中发生的概率最大，当总体X的未知参数θ待估时，应用这一原理，对X的样本（X1，X2，…，Xn）做一次观测实验，得到样本观察值（x1，x2，…，xn）为此一次试验结果，那么参数θ的估计值应该取为使得这一结果发生的概率为最大才合理，这就是极大似然估计法的基本思想。

1.2 极大似然估计法理解型例子

为了方便大家更好的理解这一原理，这里举一个理解型的例子。

现在有一个黑箱子里面有标有1或2的球共100个，现在从中有放回的抽取10个球，结果为{1,2,2,2,1,2,1,1,2,2}，估计标有1的球在黑箱子里面有多少个。

我们不妨把标有1的球设为θ个，那么抽到1的概率P(x=1)=θ/100，这里简单记作p，则产生实验结果{1,2,2,2,1,2,1,1,2,2}的概率为 P = (p^4)*((1-p)^6),这里的待估参数为θ，但是为了方便不妨把待估参数看做p（p=θ/100）。那么极大似然估计法的目标就是调整p使得总概率P最大！换句话说，P是一个关于p的函数，不妨记作P(p)。

为了后续计算，对P取对数。

为了使得l(p)最大，那么求导可知

尅算出p=0.4，即待估参数θ的极大似然估计值为40个。

这便是极大似然估计法的核心思想了。那么如何评判这个估计值好不好呢？显然的，估计的方法不止这一种，而每个方法的估计值可能不同，那么哪一个估计值更合理呢？

这两个问题的核心部分在于寻找到一个评判估计值优劣的标准。在概率论中，主要采用如下三个标准：

无偏性
有效性
一致性

在这里笔者不再详述，有兴趣的读者可以翻阅相关文献。

2 机器学习应用例子

现在回到机器学习中，我们现在来简单的思考一下机器学习的本质问题。片面来说，机器学习的过程就是从样本空间寻找拟合函数的过程。这里所谓的拟合函数多种多样，当一个拟合函数的基本模型定下后，就需要通过样本空间的大量样本来调整拟合函数模型的一些参数定形（这里主要讲的是参数学习算法），使之能够进行更加准确的拟合。,

先定义几个符号：