参数估计
随机变量X属于某种分布,这样的分布是可以用概率函数表示出来的
也就是说,要计算一个具体的x的概率,只需将x作为函数f的输入求值即可。
常见的分布的概率函数有:
两点分布:
可以认为p是概率函数的参数,当p已知时,f(x)是x的函数,当x已知(通过实验得到了很多的x)时,f(x)就是p的函数了,意思就是通过很多次实验可以求出p(或近似于真理的估计值)。
举例来说,我们做无穷次(实际不可能),得到的x都是1,那你自然会想p就是百分百(=1),如果有一半是1一半是0,那显然取p=0.5是合理的。
这种用做实验的方式来估算既定概率函数的参数的方法就叫参数估计。
再举例来说明参数估计,我们看看均匀分布
已知b,那求任意x的概率都很简单,只需看x在不在(0,b)里面即可。如果现在不知道b,就可以做很多次实验得到很多的x,最后对b的估计就是max(x)
极大似然估计
一些有直观意义的概率分布,我们通过直觉就能估计参数,但是不那么直观的分布,怎么做推广呢。
n次实验得到n个观测值,假设实验独立且观测值服从同一个分布,我们可以把它们的联合概率写出来:
因为
当然
我们希望
因此,求
被称为极大似然估计(估计θ的函数也统称为这个名字),上式为极大似然估计方程。
因为乘积的计算有诸多不便,通常用对数联合概率:
式(1)的等价形式为:
举个栗子来看看,对于两点分布来说n次实验之后:
其中
注意,如果θ是参数向量,式(4)是对各分量求偏导然后令为0的偏微分方程组。
在本例中,只有一个参数,因此具体写为:
如果用电脑来计算的话,只需带入
通过极大似然估计推导逻辑回归的损失函数
在逻辑回归(logistics regression)及其应用(MLIA第五章)中我们写出了逻辑回归的损失函数,但是没有解释。
这个式子和式(3)是不是有点关联,好像就是在前面乘了
但是x,y,θ怎么对应了,这里不容易理解,因为
1、在损失函数中θ是回归系数,而不是式(3)的θ。
2、式(3)的
3、式(3)中的θ是对观测值=1的概率估计,对应于损失函数中的
4、损失函数中的x,其实是样本的属性(特征),x的某个函数值才是式(3)中的x
这样就完全对应起来了。
为了不迷惑,可以捋一捋:
1、极大似然估计的是概率函数的参数,而不是直接估计机器学习算法中的回归系数或别的系数
2、极大似然估计中所谓的观测值,往往是分类算法中的样本分类标签
3、分类学习的目的是把分类结果(似然估计中的观测值,要预测的值)表示为样本属性的函数(线性的或者非线性的函数),
4、极大似然估计往往和最小化损失有很强的关联,如果