【本文内容摘自"Signals, Systems and Inferences"之"8.2-From Estimate to an Estimator", by Alan V.Oppenheim and George C.Verghese, 2010.】 上面我们得到对于特定的
X
=
x
X=x
X = x ,有
y
^
(
x
)
=
E
[
Y
∣
X
=
x
]
.
\hat y(x)={\rm E}\left[Y|X=x\right].
y ^ ( x ) = E [ Y ∣ X = x ] . 然而,尽管
X
X
X 是随机变量,但其取值
x
x
x 不是,因此
y
^
(
x
)
\hat y(x)
y ^ ( x ) 也不是。 在我们进入更深入的讨论时,我们有必要在估计随机变量和实现估计的步骤间划分出界限。这就好像对于函数的取值和函数本身进行区分。我们把产生估计的过程或者函数称为估计器(estimator)。 我们用
y
^
(
X
)
\hat y(X)
y ^ ( X ) 来表示MMSE估计器,即
Y
^
=
y
^
(
X
)
=
E
[
Y
∣
X
]
.
\hat Y=\hat y({\bf X})={\rm E}[Y|{\bf X}].
Y ^ = y ^ ( X ) = E [ Y ∣ X ] . 注意这里
E
[
Y
∣
X
]
{\rm E}[Y|{\bf X}]
E [ Y ∣ X ] 表示一个随机变量,而非一个数值。 给定
X
{\bf X}
X 时对Y的MMSE估计器将最小化MSE,这是由于MMSE估计器对于每个特定的值
x
x
x ,都最小化MSE,即
E
Y
,
X
(
[
Y
−
y
^
(
X
)
]
2
)
=
E
X
{
E
Y
,
X
(
[
Y
−
y
^
(
X
)
]
2
∣
X
)
}
=
∫
−
∞
∞
E
Y
,
X
(
[
Y
−
y
^
(
X
)
]
2
∣
X
=
x
)
f
X
(
x
)
d
x
.
{\rm E}_{Y,{\bf X}}\left( [Y-\hat y({\bf X})]^2\right)={\rm E}_{{\rm X}}\left\{{\rm E}_{Y,{\bf X}}\left( [Y-\hat y({\bf X})]^2|{\bf X}\right)\right\}\\ =\int_{-\infty}^{\infty}{\rm E}_{Y,{\bf X}}\left( [Y-\hat y({\bf X})]^2|{\bf X=x}\right)f_{\bf X}({\bf x})d{\bf x}.
E Y , X ( [ Y − y ^ ( X ) ] 2 ) = E X { E Y , X ( [ Y − y ^ ( X ) ] 2 ∣ X ) } = ∫ − ∞ ∞ E Y , X ( [ Y − y ^ ( X ) ] 2 ∣ X = x ) f X ( x ) d x . 由于估计
y
^
(
x
)
\hat y({\bf x})
y ^ ( x ) 对于
X
X
X 的每个值都能够最小化
E
Y
∣
X
{\rm E}_{Y|{\bf X}}
E Y ∣ X ,因此也能够最小化
E
X
{\rm E}_{\bf X}
E X ,因为
f
X
(
x
)
f_{\bf X}({\bf x})
f X ( x ) 非负。
正交性 MMSE估计器的另外一个重要特性时残留误差
Y
−
y
^
(
X
)
Y-\hat y({\rm X})
Y − y ^ ( X ) 与测量的随机变量的任意函数
h
(
X
)
h({\bf X})
h ( X ) 正交,即
E
Y
,
X
{
[
Y
−
y
^
(
X
)
]
h
(
X
)
}
=
0.
(
1
)
{\rm E}_{Y,X}\{[Y-\hat y ({\bf X)}]h({\bf X})\}=0.\qquad \qquad (1)
E Y , X { [ Y − y ^ ( X ) ] h ( X ) } = 0 . ( 1 ) 因此
E
Y
,
X
{
y
^
(
X
)
h
(
X
)
}
=
E
Y
,
X
{
Y
h
(
X
)
}
.
(
2
)
{\rm E}_{Y,X}\{\hat y ({\bf X)}h({\bf X})\}={\rm E}_{Y,X}\{Yh({\bf X})\}.\qquad \qquad (2)
E Y , X { y ^ ( X ) h ( X ) } = E Y , X { Y h ( X ) } . ( 2 ) 特别地,选择
h
(
X
)
=
1
h({\bf X})=1
h ( X ) = 1 ,有
E
Y
,
X
{
y
^
(
X
)
}
=
E
Y
{
Y
}
.
{\rm E}_{Y,X}\{\hat y ({\bf X)}\}={\rm E}_{Y}\{Y\}.
E Y , X { y ^ ( X ) } = E Y { Y } . 因此,估计器被称为无偏的(unbiased):它的期望值等于估计的随机变量的期望值。我们可以用无偏性来理解(1),即MMSE估计器的估计误差与用来构造估计器的随机变量的任意函数都是无关的。 (2)的证明如下
E
Y
,
X
{
y
^
(
X
)
h
(
X
)
}
=
E
X
[
E
Y
∣
X
(
Y
∣
X
)
h
(
X
)
}
=
E
X
[
E
Y
∣
X
[
Y
h
(
X
)
∣
X
}
=
E
Y
,
X
{
Y
h
(
X
)
}
{\rm E}_{Y,X}\{\hat y({\bf X})h({\bf X})\}={\rm E}_{X}[ {\rm E}_{Y|X}(Y|{\bf X})h({\bf X})\}\\={\rm E}_{X}[ {\rm E}_{Y|X}[Yh({\bf X})|{\bf X}\}={\rm E}_{Y,X}\{Yh({\bf X})\}
E Y , X { y ^ ( X ) h ( X ) } = E X [ E Y ∣ X ( Y ∣ X ) h ( X ) } = E X [ E Y ∣ X [ Y h ( X ) ∣ X } = E Y , X { Y h ( X ) } 由此可以得到(1)中的正交性。