机器学习|点估计-极大似然估计法(以联合密度、联合概率函数为例)| 20mins入门|概统学习笔记(二十六)

(二) 极大似然估计法

  • 本质:这是在总体类型已知条件下使用的一种参数估计方法

  • 引入问题:同学和猎人外出打猎,突然一只野兔出现,砰的一声,野兔被枪击倒,你猜是谁将野兔打倒的呢?

    答:猎人击倒野兔的可能性大,因此应该是猎人打倒的

  • 基本思想:选择一个参数使得实验结果具有最大概率。

  • 原理:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 是取自总体X的一个样本,样本的联合密度(连续型)或联合概率函数(离散型)为 f ( X 1 , X 2 , . . . , X n ; θ ) f(X_1,X_2,...,X_n;\theta)

    当给定样本 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 时,定义似然函数为:
    L ( θ ) = f ( X 1 , X 2 , . . . , X n ; θ ) L(\theta)=f(X_1,X_2,...,X_n;\theta)
    L ( θ ) L(\theta) 看作参数 θ \theta 的函数,它可作为 θ \theta 将以多大可能产生样本值 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 的一种度量。

    极大似然估计法就是用使 L ( θ ) L(\theta) 达到最大值的 θ ^ \hat \theta 去估计 θ \theta .
    L ( θ ^ ) = m a x θ L ( θ ) L(\hat \theta)=max_{\theta}L(\theta)
    θ ^ \hat \theta θ \theta 的极大似然估计(Maximum Likelihood Estimation)

  • 极大似然估计(MLE)的一般步骤:

    (1)由总体分布导出样本的联合概率函数(或联合密度);

    (2)把样本联合概率函数(或联合密度)中自变量看成已知常数,而把参数 θ \theta 看作自变量,得到似然函数 L ( θ ) L(\theta)

    (3)求似然函数 L ( θ ) L(\theta) 的最大值点(常常转化为求 l n L ( θ ) lnL(\theta) 的最大值点),即 θ \theta 的MLE;

    (4)在最大值点的表达式中,用样本值带入就得参数的极大似然估计值

    注意:

    (1)求似然函数 L ( θ ) L(\theta) 的最大值点,可以应用微积分中的技巧。由于 l n ( x ) ln(x) x x 的增函数, l n L ( θ ) lnL(\theta) L ( θ ) L(\theta) θ \theta 的同一值处达到它的最大值,假定 θ \theta 是一实数,且 l n L ( θ ) lnL(\theta) θ \theta 的一个可微函数。通过求解所谓的”似然方程“:
    d l n L ( θ ) d θ = 0 \frac{dlnL(\theta)}{d\theta}=0
    可以得到 θ \theta 的MLE。

    θ \theta 是向量,上述方程必须用似然方程组代替。

    (2)用上述求导方法求参数的MLE有时行不通,这时要用极大似然原则(使似然函数 L ( θ ) L(\theta) 值最大)来求

  • e.g 以联合概率函数为例

    X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 是取自总体 X X ~ B ( 1 , p ) B(1,p) 的一个样本,求参数p的极大似然估计

    第一步:由总体分布导出样本概率函数;

    总体的分布: X X ~ B ( 1 , p ) P ( X = x ) = p x ( 1 p ) 1 x x = 0 , 1 B(1,p) \quad \to \quad P(X=x)=p^x(1-p)^{1-x} \quad x=0,1

    于是,样本的联合分布为:

    P ( X 1 = x 1 , X 2 = x 2 , . . . , X n = x n ) = P ( X 1 = x 1 ) P ( X 2 = x 2 ) , . . . , P ( X n = x n ) P(X_1=x_1,X_2=x_2,...,X_n=x_n)=P(X_1=x_1)P(X_2=x_2),...,P(X_n=x_n)

    = i = 1 n p x i ( 1 p ) 1 x i = p i = 1 n x i ( 1 p ) n i = 1 n x i =\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i}

    第二步:把样本联合概率函数(或联合密度)中自变量看成已知常数,而把参数 θ \theta 看作自变量,得到似然函数 L ( θ ) L(\theta) ;

    似然函数为:
    L ( p ) = f ( X 1 , X 2 , . . . , X n ; p ) = i = 1 n p x i ( 1 p ) 1 x i = p i = 1 n x i ( 1 p ) n i = 1 n x i L(p)=f(X_1,X_2,...,X_n;p)=\prod_{i=1}^np^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^nx_i}(1-p)^{n-\sum_{i=1}^nx_i}
    第三步:求似然函数 L ( θ ) L(\theta) 的最大值点(常常转化为 l n L ( θ ) lnL(\theta) 的最大值点),即 θ \theta 的MLE;

    对数似然函数为:
    l n L ( p ) = i = 1 n x i l n ( p ) + ( n i = 1 n x i ) l n ( 1 p ) lnL(p)=\sum^n_{i=1}x_iln(p)+(n-\sum_{i=1}^nx_i)ln(1-p)
    对p求导并令其为0,得
    d l n L ( p ) d p = 1 p i = 1 n x i 1 1 p ( n i = 1 n x i ) = 0 p = 1 n i = 1 n x i = x \frac{dlnL(p)}{dp}=\frac{1}{p}\sum_{i=1}^nx_i-\frac{1}{1-p}(n-\sum_{i=1}^nx_i)=0 \\ \therefore p=\frac{1}{n}\sum_{i=1}^nx_i=\overline x
    第四步:在最大值点的表达式中,用样本值代入就得参数的极大似然估计值;

    p ^ = 1 n i = 1 n x i = x \hat p=\frac{1}{n}\sum_{i=1}^nx_i=\overline x ,即为p的MLE。

    于是,p的极大似然估计量为 p ^ = 1 n i = 1 n X i = X \hat p=\frac{1}{n}\sum_{i=1}^nX_i=\overline X

    这一估计量与矩估计量是相同的。

  • e.g 以联合密度函数为例

    X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 是取自总体X的一个样本

    X X ~ f ( x ) = { θ x θ 1 , 0 < x < 1 0 , f(x)=\begin{cases} \theta x^{\theta -1} , \quad 0<x<1 \\ 0, \quad 其它 \end{cases}

    其中 θ > 0 \theta >0 ,求 θ \theta 的极大似然估计。

    似然函数为
    L ( θ ) = i = 1 n θ x i θ 1 = θ n ( i = 1 n x i ) θ 1 ( 0 < x i < 1 , 1 i n ) L(\theta)=\prod_{i=1}^n\theta x_i^{\theta -1}=\theta^n(\prod_{i=1}^nx_i)^{\theta-1} \quad \quad (0<x_i<1, 1\leq i\leq n)
    对数似然函数为
    l n L ( θ ) = n l n θ + ( θ 1 ) i = 1 n l n x i lnL(\theta)=nln\theta+(\theta-1)\sum^n_{i=1}lnx_i
    求导并令其为0
    d l n L ( θ ) d θ = n θ + i = 1 n l n x i = 0 \frac{dlnL(\theta)}{d\theta}=\frac{n}{\theta}+\sum_{i=1}^nlnx_i=0
    解得
    θ ^ = n i = 1 n l n x i \hat \theta=-\frac{n}{\sum_{i=1}^nlnx_i}
    即为 θ \theta 的MLE

  • e.g 以极大似然原则为例

    X 1 X 2 , . . . , X n X_1,X_2,...,X_n 取自总体X的一个样本

    X X ~ f ( x ) = { 1 θ e ( x μ ) / θ , x μ 0 , f(x)=\begin{cases} \frac{1}{\theta}e^{-(x-\mu)/\theta}, \quad x\geq \mu \\ 0,\quad 其它 \end{cases}

    θ , μ \theta,\mu 为未知参数,其中 θ > 0 \theta>0 ,求 θ , μ \theta,\mu 的极大似然估计

    解:似然函数为
    L ( θ , μ ) = { i = 1 n 1 θ e ( x i μ ) / θ x i μ i = 1 , 2 , . . . , n 0 , = { 1 θ n e 1 θ i = 1 n ( x i μ ) , m i n   x i μ 0 , L(\theta,\mu)=\begin{cases}\prod_{i=1}^n\frac{1}{\theta}e^{-(x_i-\mu)/\theta} & x_i\geq \mu,i=1,2,...,n \\0, & 其它\end{cases}\\=\begin{cases}\frac{1}{\theta^n}e^{-\frac{1}{\theta}\sum_{i=1}^n(x_i-\mu)}, & min\space x_i\geq \mu \\0, & 其它\end{cases}

    对数似然函数为:
    l n L ( θ , μ ) = n l n θ 1 θ i = 1 n ( x i μ ) lnL(\theta,\mu)=-nln\theta-\frac{1}{\theta}\sum_{i=1}^n(x_i-\mu)
    θ , μ \theta,\mu 分别求偏导并令其为0,
    l n L ( θ , μ ) θ = n θ + 1 θ 2 i = 1 n ( x i μ ) = 0 (1) \frac{\partial lnL(\theta,\mu)}{\partial \theta}=-\frac{n}{\theta}+\frac{1}{\theta^2}\sum_{i=1}^n(x_i-\mu)=0 \tag{1}

    l n L ( θ , μ ) μ = n θ = 0 (2) \frac{\partial lnL(\theta,\mu)}{\partial \mu}=\frac{n}{\theta}=0 \tag{2}

    由(1)得: θ = 1 n i = 1 n x i μ \theta=\frac{1}{n}\sum_{i=1}^nx_i-\mu

    由(2)得:无解! n θ > 0 \frac{n}{\theta}>0 恒成立

    用求导方法无法最终确定 θ μ \theta、\mu ,用极大似然原则来求。

    m i n   x i μ , L ( θ , μ ) > 0 min\space x_i\geq \mu,L(\theta,\mu)>0 ,且是 μ \mu 的增函数

    故要使 L ( θ , μ ) L(\theta,\mu) 达到最大,则 μ = m i n   x i \mu=min\space x_i ,即 μ \mu 的MLE

    根据定义域,有 μ = m i n 1 i n x i \mu^*=min_{1\leq i\leq n}x_i ,即 θ , μ \theta^*,\mu^* θ , μ \theta,\mu 的MLE。

    于是 θ = 1 n i = 1 n x i μ \theta^*=\frac{1}{n}\sum_{i=1}^nx_i-\mu^*

  • 极大似然估计的一个性质:

    θ \theta 的函数 g = g ( θ ) g=g(\theta) θ \theta 上的实值函数,且有唯一反函数。如果 θ ^ \hat \theta θ \theta 的MLE,则 g ( θ ^ ) g(\hat \theta) 也是 g ( θ ) g(\theta) 的极大似然估计

    e.g 一罐中装有白球和黑球,有放回地抽取一个容量为n的样本,其中有k个白球,求罐中黑球与白球之比R的极大似然估计。

    解:设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 为所取样本
    X i = { 1 , 0 , X_i= \begin{cases} 1, & 取到白球 \\ 0, & 取到黑球 \end{cases}
    其中 i = 1 , 2 , . . . , n i=1,2,...,n ,则 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n 是取自 B ( 1 , p ) B(1,p) 的样本,p是每次抽取时取到白球的概率,p未知,求p的MLE。

    似然函数为
    L ( p ) = P ( Y = k ; p ) = ( n k ) p k ( 1 p ) n k L(p)=P(Y=k;p)=\begin{pmatrix}n \\ k\end{pmatrix}p^k(1-p)^{n-k}
    对数似然函数为
    l n L ( p ) = l n ( n k ) + k l n p + ( n k ) l n ( 1 p ) lnL(p)=ln\begin{pmatrix}n\\ k\end{pmatrix}+ klnp+(n-k)ln(1-p)
    对p求导并令其为0
    d l n f ( p ) d p = k p n k 1 p = 0 \frac{d lnf(p)}{dp}=\frac{k}{p}-\frac{n-k}{1-p}=0
    解得
    p ^ = k n \hat p =\frac{k}{n}
    对一切的 0 < p < 1 0<p<1 ,均有
    P ( Y = k ; p ^ ) P ( Y = k ; p ) P(Y=k;\hat p) \geq P(Y=k;p)
    由极大似然估计的性质可得, R = 1 p p R=\frac{1-p}{p} 的MLE是
    R ^ = 1 p ^ p ^ = n k 1 \hat R=\frac{1-\hat p}{\hat p}= \frac{n}{k}-1

发布了37 篇原创文章 · 获赞 0 · 访问量 789

猜你喜欢

转载自blog.csdn.net/SanyHo/article/details/105251604