对极大似然估计的理解

参数估计

随机变量X属于某种分布，这样的分布是可以用概率函数表示出来的

$p(X=x)=f(x)$

也就是说，要计算一个具体的x的概率，只需将x作为函数f的输入求值即可。

常见的分布的概率函数有：

两点分布： $f(x)=p^x(1-p)^{(1-x)}$ ，p又是什么呢，这里很容易引起混淆，它是x=1的概率，注意f(x)并不等于1，它是x取某值时的概率，而p是x=1的概率。

可以认为p是概率函数的参数，当p已知时，f(x)是x的函数，当x已知（通过实验得到了很多的x）时，f(x)就是p的函数了，意思就是通过很多次实验可以求出p（或近似于真理的估计值）。

举例来说，我们做无穷次（实际不可能），得到的x都是1，那你自然会想p就是百分百（=1），如果有一半是1一半是0，那显然取p=0.5是合理的。

这种用做实验的方式来估算既定概率函数的参数的方法就叫参数估计。

再举例来说明参数估计，我们看看均匀分布

f (x) = ⎧ ⎩ ⎨ ⎪ ⎪ = 1 b = 0 when else 0 < x < b (均 匀 分 布 的 概 率 密 度 函 数)

$f(x)=\left\{\begin{matrix} =\frac{1}{b} & \text{when} &0 < x < b \\ =0& \text{else} \end{matrix}\right. \tag{均匀分布的概率密度函数}$

已知b，那求任意x的概率都很简单，只需看x在不在(0,b)里面即可。如果现在不知道b，就可以做很多次实验得到很多的x，最后对b的估计就是max(x)

极大似然估计

一些有直观意义的概率分布，我们通过直觉就能估计参数，但是不那么直观的分布，怎么做推广呢。

n次实验得到n个观测值，假设实验独立且观测值服从同一个分布，我们可以把它们的联合概率写出来：

$L=f(x_1,x_2,...,x_n)=f(x_1)*f(x_2)*...*f(x_n)$

因为 $x_i$ 已知，所以L其实是θ（概率函数中的参数）的函数，所以上式重写为

L (θ) = \prod i = 1 n f (θ; x i)

$L(\theta )=\prod_{i=1}^{n}f(\theta ;x_i)$
当然

xi $x_i$ 可能是向量，θ也可能是参数向量（一组参数）
我们希望

L(θ) $L(\theta )$ 最大，并不只是因为必须定界才能求解，更重要的是我们相信某种结果已经出现就代表着它与冥冥之中的客观规律是一致的，也就是说使这个乘积最大化的θ就近似客观地描述了概率（注意概率是理想的，是客观的）

因此，求
$arg \text{ } \underset{\theta}{max} L(\theta;x ) \tag{1}$
被称为极大似然估计(估计θ的函数也统称为这个名字)，上式为极大似然估计方程。

因为乘积的计算有诸多不便，通常用对数联合概率：

H (θ) = l n \prod i = 1 n f (θ; x i) = \sum i = 1 n l n (f (θ; x i))

$H(\theta )=ln\prod_{i=1}^{n}f(\theta ;x_i)\\ =\sum_{i=1}^{n}ln(f(\theta ;x_i))$

式(1)的等价形式为：
$arg \text{ } \underset{\theta}{max} H(\theta;x ) \tag{2}$

举个栗子来看看，对于两点分布来说n次实验之后：

H (θ) = \sum i = 1 n l n (θ x i (1 - θ) (1 - x i)) = \sum i = 1 n [x i l n (θ) + (1 - x i) l n (1 - θ)] (3)

$H(\theta )=\sum_{i=1}^{n}ln(\theta^{x_i}(1-\theta)^{(1-x_i)})\\ =\sum_{i=1}^{n}[{x_i}ln(\theta)+{(1-x_i)}ln(1-\theta)] \tag{3}$
其中

xi=0或1 $x_i=0或1$ ，现在要使

H(θ) $H(\theta )$ 最大，只需对θ求导并令结果为0然后解方程，也就是说，式(2)转为：

$\frac{\mathrm{d} }{\mathrm{d} \theta }H(\theta )=0 \tag{4}$

注意，如果θ是参数向量，式(4)是对各分量求偏导然后令为0的偏微分方程组。

在本例中，只有一个参数，因此具体写为：

$\frac{\mathrm{d} }{\mathrm{d} \theta }H(\theta )\ =\sum_{i=1}^{n}[{x_i}/\theta+{(1-x_i)}/(1-\theta)] = 0$
如果用电脑来计算的话，只需带入 $x_i$ 就可以轻松求解θ

通过极大似然估计推导逻辑回归的损失函数

在逻辑回归（logistics regression）及其应用（MLIA第五章）中我们写出了逻辑回归的损失函数，但是没有解释。

J (θ) = - 1 m \sum i = 1 N [y (i) l o g (h θ (x (i))) + (1 - y (i))) l o g (1 - h θ (x (i)))] (损 失 函 数)

$J(\theta) = -\frac{1}{m} \sum_{i=1}^{N}[y^{(i)}log(h_\theta(x^{(i)}))+(1-y^{(i)}))log(1-h_\theta(x^{(i)}))] \tag{损失函数}$

这个式子和式(3)是不是有点关联，好像就是在前面乘了 $-\frac{1}{m}$ ，这个点可以理解为求最大似然等价于求最小损失。

但是x,y,θ怎么对应了，这里不容易理解，因为
1、在损失函数中θ是回归系数，而不是式(3)的θ。

2、式(3)的 $x_i$ 是观测值，对应于损失函数中的 $y^{(i)}$ 即真正出现的分类（0或1）

3、式(3)中的θ是对观测值=1的概率估计，对应于损失函数中的 $h_\theta(x^{(i)})$ 也就是通过回归系数组合各属性值后再用sigmoid求出的对分类=1的概率估计

4、损失函数中的x，其实是样本的属性（特征），x的某个函数值才是式(3)中的x
这样就完全对应起来了。

为了不迷惑，可以捋一捋：
1、极大似然估计的是概率函数的参数，而不是直接估计机器学习算法中的回归系数或别的系数
2、极大似然估计中所谓的观测值，往往是分类算法中的样本分类标签
3、分类学习的目的是把分类结果（似然估计中的观测值，要预测的值）表示为样本属性的函数（线性的或者非线性的函数）， $X_{似然} = h(x_{分类属性})$ ，此x非彼x
4、极大似然估计往往和最小化损失有很强的关联，如果 $θ_{似然}$ 是机器学习中分类函数或得分函数的函数(本例中θ直接等于分类函数)的话，那么它们可以互相转换