统计估计(statistical estimation)
即到手的数据概率分布是未知的, 我们只能从样本集合里估计数据潜在的概率分布(underlying propability distribution).
基础
-
- 估计(estimator)
μ^
:从样本得到的定量估计,比如期望的estimator定义是:
μ^=1n∑i=1Nxi(1)
准确来说,estimator是一个在所有样本
{xi}Ni=1
上的函数,因此是一个随机变量。
-
- 估计值(estimate):estimator确定的值。
-
- 统计估计的两种方法
- 参数模型(parameter model)
g(x;θ)
,概率密度(或者质量)函数加上有限维度的参数
θ
。
- 非参数模型(nonparametric method):不带参数或者是无限多参数的参数模型。
假设以下的样本
D={xi}Ni=1
都在
f(x)
上i.i.d。
点估计
参数估计:
最大似然估计(MLE)确定参数值,使得生成我们已有样本的可能性最大:
L(θ)=∏i=1ng(xi;θ)(2)
θ^ML=argmaxθL(θ)(3)
MLE里的参数
θ
被认为是确定的随机变量(deterministic variable),但是在贝叶斯推理(Bayes inference)中,
θ
被认为是一个随机变量(random variable),则有:
PriorProbability:p(θ)(4)
Likelihood:p(D|θ)(5)
PosteriorProbability:p(θ|D)(6)
那么贝叶斯点估计最大化(4)可以利用条件概率得到:
argaxθp(D|θ)=p(θ,D)p(θ)=p(θ|D)p(D)p(θ)(7)
由此,MLE等价于:
PosteriorExpectation:∫θp(θ|D)dθ(8)
PosteriorMode:argmaxθp(θ|D)(9)
公式(9)又称为最大后验概率(maximum a posterior probability estimation,MAP).
由此导出计算后验概率的公式:
p(θ|D)=p(D|θ)p(θ)p(θ)=p(D|θ)p(θ)∫p(D|θ′)p(θ′)dθ(10)
非参数估计:
核密度估计(Kernel Density Estimation,KDE):在样本
D={xi}ni=1
上用核函数近似密度函数
f(x)
:
f^KDE(x)=1n∑i=1nK(x,xi),(11)
这里
K(x,x′)
是核函数。
最邻近密度估计(Nearest neighbor density estimation,NNDE)