统计推断(二) Estimation Problem

1. Bayesian parameter estimation

  • Formulation

    • Prior distribution p x ( ) p_{\mathsf{x}}(\cdot)
    • Observation p y x ( ) p_{\mathsf{y|x}}(\cdot|\cdot)
    • Cost C ( a , a ^ ) C(a,\hat a)
  • Solution

    • x ^ ( ) = arg min f ( ) E [ C ( x , f ( y ) ) ] \hat x(\cdot) = \arg\min_{f(\cdot)} \mathbb E[C(x,f(y))]
    • x ^ ( y ) = arg min a X C ( x , a ) p x y ( x y ) d x \hat{\mathbf{x}}(\mathbf{y})=\underset{\mathbf{a}}{\arg \min } \int_{\mathcal{X}} C(\mathbf{x}, \mathbf{a}) p_{\mathbf{x} | \mathbf{y}}(\mathbf{x} | \mathbf{y}) \mathrm{d} \mathbf{x}
  • Specific case

    • MAE(Minimum absolute-error)

      • C ( a , a ^ ) = a a ^ C(a,\hat a)=|a-\hat a|
      • x ^ \hat x is the median of the belief p x y ( x y ) p_{\mathsf{x|y}}(x|y)
    • MAP(Maximum a posteriori)

      • C ( a , a ^ ) = { 1 , a a ^ > ε 0 , o t h e r w i s e C(a,\hat a) = \left\{ \begin{array}{ll}{1,} & {|a-\hat a|>\varepsilon} \\ {0,} & {otherwise}\end{array}\right.
      • x ^ M A P ( y ) = arg max a p x y ( a y ) \hat x_{MAP}(y) = \arg \max_a p_{\mathsf{x|y}}(a|y)
    • BLS(Bayes’ least-squares)

      • C ( a , a ^ ) = a a ^ 2 C(a,\hat a)=||a-\hat a||^2

      • x ^ B L S ( y ) = E [ x y ] \hat x_{BLS}(y) = \mathbb E [\mathsf{x|y}]

      • proposition

        • unbiased: b = E [ e ( x , y ) ] = E [ x ^ ( y ) x ] = 0 b = \mathbb E[\mathsf{e(x,y)}]=E[\mathsf{\hat x(y)-x}]=0

        • 误差的协方差矩阵就是 belief(后验分布?)的协方差阵的期望
          Λ B L S = E [ Λ x y ( y ) ] \Lambda_{BLS}=\mathbb E[\mathsf{\Lambda_{x|y}(y)}]

  • Orthogonality
    x ^ ( )   i s   B L S       E [ [ x ^ ( y ) x ] g T ( y ) ] = 0 \hat x(\cdot)\ is\ BLS \iff \mathbb E\left[ \mathsf{[\hat x(y)-x]g^T(y)}\right]=0

    Proof: omit

2. Linear least-square estimation

  • Drawback of BLS x ^ B L S ( y ) = E [ x y ] \hat x_{BLS}(y)=E[x|y]

    • requires posterior p ( x y ) p(x|y) , which needs p ( x ) p(x) and p ( y x ) p(y|x)
    • calculating posterior is complicated
    • estimator is nonlinear
  • Definition of LLS

    • x ^ L L S ( y ) = arg min f ( ) B E [ x f ( y ) 2 ] B = { f ( ) : f ( y ) = A y + d } \hat {\mathbf{x}}_{LLS}(y) = \arg \min\limits_{f(\cdot) \in \mathcal{B}} E\left[||\mathsf{x-f(y)}||^2\right] \\ \mathcal{B}=\{f(\cdot):f(y)=Ay+d\}
    • 注意 x ^ ( y ) \hat {\mathbf{x}}(\mathsf{y}) 是一个随机变量,是关于 y \mathsf{y} 的一个函数
    • LLS 与 BLS 都是假设 x 为一个随机变量,有先验分布,不同之处在于 LLS 要求估计函数为关于观测值 y 的线性函数,因此 LLS 只需要知道二阶矩,而 BLS 需要知道后验均值
  • Property

    • Orthogonality
      x ^ ( )   i s   L L S       E [ x ^ ( y ) x ] = 0    a n d    E [ ( x ^ ( y ) x ) y T ] = 0 \hat {\mathbf{x}}(\cdot)\ is\ LLS \iff E[\hat {\mathbf{x}}(\mathsf{y})-\mathsf{x}]=0\ \ and\ \ E[(\hat {\mathbf{x}}(\mathsf{y})-\mathsf{x})\mathsf{y}^T]=0

    • 推论:由正交性可得到

      • x ^ L L S ( y ) = μ X + Λ x y Λ y 1 ( y μ y ) \hat x_{LLS}(y)=\mu_X+\Lambda_{xy}\Lambda_y^{-1}(y-\mu_y)
      • Λ L L S E [ ( x x ^ L L S ( y ) ) ( x x ^ L L S ( y ) ) T ] = Λ x Λ x y Λ y 1 Λ x y T \Lambda_{\mathrm{LLS}} \triangleq \mathbb{E}\left[\left(\mathbf{x}-\hat{\mathbf{x}}_{\mathrm{LLS}}(\mathbf{y})\right)\left(\mathbf{x}-\hat{\mathbf{x}}_{\mathrm{LLS}}(\mathbf{y})\right)^{\mathrm{T}}\right]=\Lambda_{\mathrm{x}}-\Lambda_{\mathrm{xy}} \Lambda_{\mathrm{y}}^{-1} \Lambda_{\mathrm{xy}}^{\mathrm{T}}

    Proof: x 可以是向量

    \Longrightarrow :反证法

    1. suppose E [ x ^ L L S ( y ) x ] = b 0 E[\hat x_{LLS}(y)-x]=\mathbb{b} \ne 0 ,take x ^ = x ^ L L S b \hat x'=\hat x_{LLS} - b
      then E [ x ^ x 2 ] = E [ x ^ x 2 ] b 2 < E [ x ^ x 2 ] E\left[||\hat x' - x||^2\right]=E\left[||\hat x - x||^2\right]-b^2 < E\left[||\hat x - x||^2\right]
      与 LLS 的定义矛盾;
    2. e = x ^ ( y ) x e=\hat x(y)-x
      Take x ^ = x ^ L L S Λ e y Λ y 1 ( y μ y ) \hat x' = \hat x_{LLS} - \Lambda_{ey}\Lambda_y^{-1}(y-\mu_y)

    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ M &= E\left[(\…

    由于 E [ x f ( y ) 2 ] = t r { M } E\left[||\mathsf{x-f(y)}||^2\right] = tr\{M\} ,LLS 的 MSE 应当最小
    由于 Λ y \Lambda_y 正定,因此应有 Λ e y Λ y 1 Λ e y T = 0 \Lambda_{ey}\Lambda_y^{-1}\Lambda_{ey}^T=0
    E [ ( x ^ μ x ) ( y μ y ) T ] = 0 E [ ( x ^ ( y ) x ) y T ] = 0 E\left[(\hat x-\mu_x)(y-\mu_y)^T \right]=0 \Longrightarrow E[(\hat {\mathbf{x}}(\mathsf{y})-\mathsf{x})\mathsf{y}^T]=0

    \Longleftarrow :suppose another linear estimator x ^ \hat x'
    KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ E\left[(\hat x…
    第三个等号是由于 x ^ x ^ = A y + d \hat x'-\hat x = A'y+d'

    同样的根据上面 M S E = t r { M } MSE=tr\{M\} 可得到 x ^ \hat x 有最小的 MSE

  • 联合高斯分布的情况

    • 定理:如果 x 和 y 是联合高斯分布的,那么
      x ^ B L S ( y ) = x ^ L L S ( y ) \hat x_{BLS}(y) = \hat x_{LLS}(y)

    证明: e L L S = x ^ L L S x e_{LLS}=\hat x_{LLS}-x 也是高斯分布

    由于 E [ e L L S   y T ] = 0 E[e_{LLS}\ y^T]=0 ,故 e L L S e_{LLS} 与 y 相互独立

    E [ e L L S y ] = E [ e L L S ] = 0 E [ x ^ L L S y ] = x ^ L L S = E [ x y ] E[e_{LLS}|y]=E[e_{LLS}]=0 \to E[\hat x_{LLS}|y]=\hat x_{LLS} = E[x|y]

    • 通常如果只有联合二阶矩信息,那么 LLS 是 minmax

3. Non-Bayesian formulation

  • Formulation

    • observation: distribution of y parameterized by x, p y ( y ; x ) p_\mathsf{y}(\mathbf{y;x})
      not conditioned on x, p y x ( y x ) p_\mathsf{y|x}(\mathbf{y|x})
      此时 x 不再是一个随机变量,而是未知的一个参数
    • bias: b ( x ) = E [ x ^ ( y ) x ] b(x)=E[\hat x(y)-\mathbf{x}]
    • 误差协方差矩阵 Λ e ( x ) = E [ ( e ( x , y ) b ( x ) ) ( e ( x , y ) b ( x ) ) T ] \Lambda_{\mathrm{e}}(\mathrm{x})=\mathbb{E}\left[(\mathrm{e}(\mathrm{x}, \mathrm{y})-\mathrm{b}(\mathrm{x}))(\mathrm{e}(\mathrm{x}, \mathrm{y})-\mathrm{b}(\mathrm{x}))^{\mathrm{T}}\right]
  • **有效(valid)**估计器不应当显式地依赖于 x

  • MVU: Minimum-variance unbiased estimator

    • 在 MMSE 条件下最优估计就是 MVU 估计
      KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ MSE &= E[e^2]=…
  • MVU 可能不存在

    • 可能不存在无偏估计,即 A = \mathcal{A}=\varnothing
    • 存在无偏估计 A \mathcal{A} \ne \varnothing ,但是不存在某个估计量在所有情况(任意 x)下都是最小方差

4. CRB

定理:满足正规条件时
E [ x ln p y ( y ; x ) ] = 0      f o r   a l l    x \mathbb{E}\left[\frac{\partial}{\partial x} \ln p_{y}(\mathbf{y} ; x) \right] = 0 \ \ \ \ for \ all \ \ x

λ x ^ ( X ) 1 J y ( x ) \lambda_{\hat x}(X) \ge \frac{1}{J_y(x)}
其中 Fisher 信息为
J y ( x ) = E [ ( x ln p y ( y ; x ) ) 2 ] = E [ 2 x 2 ln p y ( y ; x ) ] J_{y}(x)=\mathbb{E}\left[\left(\frac{\partial}{\partial x} \ln p_{y}(\mathbf{y} ; x)\right)^{2}\right]=-\mathbb{E}\left[\frac{\partial^{2}}{\partial x^{2}} \ln p_{y}(\mathbf{y} ; x)\right]
证明:取 f ( y ) = x ln p y ( y ; x ) f(y)=\frac{\partial}{\partial x} \ln p_{y}(\mathbf{y} ; x) ,有 E [ f ( y ) ] = 0 E[f(y)]=0
c o v ( e ( y ) , f ( y ) ) = ( x ^ ( y ) x ) x p y ( y ; x ) d y = 1 cov(e(y),f(y))=\int (\hat x(y)-x)\frac{\partial}{\partial x} p_{y}(\mathbf{y} ; x)dy=1

1 = c o v ( e , f ) V a r ( e ) V a r ( f ) 1=cov(e,f)\le Var(e)Var(f)

备注

  • 正规条件不满足时,CRB 不存在
  • Fisher 信息可以看作 p y ( y ; x ) p_{y}(\mathbf{y} ; x) 的曲率

4. 有效估计量

  • 定义:可以达到 CRB 的无偏估计量

  • 有效估计量一定是 MVU 估计量

  • MVU 估计量不一定是有效估计量,也即 CRB 不一定是紧致(tight)的,有时没有估计量可以对所有的 x 达到 CRB

  • 性质:(唯一的、无偏的,可以达到 CRB)
    x ^    i s    e f f i c i e n t       x ^ ( y ) = x + 1 J y ( x ) x ln p y ( y ; x ) \hat x \ \ is \ \ efficient \iff \hat x(y)=x+\frac{1}{J_y(x)}\frac{\partial}{\partial x} \ln p_{y}(\mathbf{y} ; x)

证明:有效估计量       \iff 可以达到 CRB       \iff 取等号 V a r ( e ) V a r ( f ) = 1 Var(e)Var(f)=1       \iff 取等号 e ( y ) = k ( x ) f ( y ) e(y)=k(x)f(y)       \iff e ( y ) = x + k ( X ) f ( y ) e(y)=x+k(X)f(y)
1 J y ( x ) = E [ e 2 ( y ) ] = k ( x ) E [ e ( y ) f ( y ) ] = k ( x ) \frac{1}{J_y(x)}=E[e^2(y)]=k(x)E[e(y)f(y)]=k(x)

5. ML estimation

  • Definition
    x ^ M L ( ) = arg max a p ( y a ) \hat x_{ML}(\cdot)=\arg\max_{a} p(y|a)

Proposition: if efficient estimator exists, it’s ML estimator
x ^ e f f ( ) = x ^ M L ( ) \hat x_{eff}(\cdot)=\hat x_{ML}(\cdot)
Proof:
x ^ e f f ( y ) = x + 1 J y ( x ) x ln p ( y ; x ) \hat x_{eff}(y)=x+\frac{1}{J_y(x)}\frac{\partial}{\partial x}\ln p(y;x)
由于有效(valid)估计器不应当依赖于 x,因此上式中 x 取任意一个值都应当是相等的,可取 x ^ M L ( y ) \hat x_{ML}(y)
x ^ e f f ( y ) = x ^ M L ( y ) + 1 J y ( x ) ln p ( y ; x ) x x = x ^ M L = x ^ M L ( y ) \hat x_{eff}(y)=\hat x_{ML}(y) + \frac{1}{J_y(x)}\frac{\partial \ln p(y;x)}{\partial x}\Big|_{x=\hat x_{ML}}=\hat x_{ML}(y)
备注:反之不一定成立,即 ML 估计器不一定是有效的,比如有时候全局的有效估计器(efficient estimator)不存在,也即此时按公式计算得到的 x ^ e f f ( y ) \hat x_{eff}(y) 实际上是依赖于 x 的,那么此时就不存在一个全局最优的估计器,此时的 ML 估计器也没有任何好的特性。


其他内容请看:
统计推断(一) Hypothesis Test
统计推断(二) Estimation Problem
统计推断(三) Exponential Family
统计推断(四) Information Geometry
统计推断(五) EM algorithm
统计推断(六) Modeling
统计推断(七) Typical Sequence
统计推断(八) Model Selection
统计推断(九) Graphical models
统计推断(十) Elimination algorithm
统计推断(十一) Sum-product algorithm

发布了42 篇原创文章 · 获赞 34 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_41024483/article/details/104165229