机器学习中的方差偏差分析(Bias-variance analysis)

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/itnerd/article/details/82764964

在预测问题中,给定一个新的数据点,预测错误的期望是多少?
假设数据是独立同分布地从一个潜在固定的概率分布中获取的,假设其分布函数为 P ( < x , y > ) = P ( x ) P ( y x ) P(<\textbf{x},y>) = P(\textbf{x})P(y|\textbf{x}) ,我们的目标就是对任意给定的数据点 x x , 求出 E P [ ( y h ( x ) ) 2 x ] , E_P[(y−h(\textbf{x}))^2|\textbf{x}], 其中,y 是数据集中 x \textbf{x} 对应的值,期望是针对所有数据集,下标 P 表示所有数据集是从同一分布 P 中获取的。形式上,该值是某一点 x \textbf{x} 在多个数据集上的预测错误的均值(期望)。
对于给定的假设集,我们可以计算出模型的真实错误(true error),也称泛化错误、测试错误 x E P [ ( y h ( x ) ) 2 x ] P ( x ) , \sum_{\textbf{x}}E_P[(y−h(\textbf{x}))^2|\textbf{x}]P(\textbf{x}), 即为 所有数据点 在那个输入数据的潜在固定分布上的预测错误的期望。如果 x \textbf{x} 为连续变量,则上述求和转化成积分形式。
我们接下来将把 真实错误(true error) 一分为三: 真实错误   =   偏差   +   方差   +   噪声。 \textbf{真实错误 = 偏差 + 方差 + 噪声。}
关于方差和期望的基本结论:
E [ X 2 ] = ( E [ X ] ) 2 + V a r [ X ] E ( X Y ) = E ( X ) E ( Y ) + C o v ( X , Y ) E[X^2] = (E[X])^2 + V ar[X]\\E(XY) = E(X)E(Y) + Cov(X,Y)
先做一个简单展开:
E P [ ( y h ( x ) ) 2 x ]   = E P [ ( h ( x ) ) 2 2 y h ( x ) + y 2 x x ]   = E P [ ( h ( x ) ) 2 x ] + E P [ y 2 x ] 2 E P [ y x ] E P [ h ( x ) x ] ( 1 ) E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\= E_P [(h(\mathbf{x}))^2 − 2yh(\mathbf{x}) + y^2\mathbf{x}|\mathbf{x}]\\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2E_P[y|\mathbf{x}]E_P[h(\mathbf{x})|\mathbf{x}],……(1)
上式中包含三项。令 h ( x ) = E P [ h ( x ) x ] \overline{h}(\mathbf{x})=E_P[h(\mathbf{x})|\mathbf{x}] ,表示点 x 在不同数据集上(分布P上)预测的均值(期望),则

第一项
运用方差的结论:平方的期望=期望的平方+方差
E P [ ( h ( x ) ) 2 x ] = ( h ( x ) ) 2 + E P [ ( h ( x ) h ( x ) ) 2 x ] ( 2 ) E_P [(h(\mathbf{x}))^2|\mathbf{x}]=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}]。……(2)
第二项
运用方差的结论:平方的期望=期望的平方+方差
E P [ y 2 x ] = ( E P ( y x ) ) 2 + E P [ ( y f ( x ) ) 2 x ] E_P [y^2|\mathbf{x}]=(E_P(y|\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]
注意到 E P ( y x ) = E P ( f ( x ) + ϵ x ) = f ( x ) E_P(y|\mathbf{x}) = E_P(f(\mathbf{x})+\epsilon|\mathbf{x})=f(\mathbf{x}) ,其中 ϵ N ( 0 , σ ) \epsilon\sim N(0,\sigma) ,故上式化为
E P [ y 2 x ] = ( f ( x ) ) 2 + E P [ ( y f ( x ) ) 2 x ] ( 3 ) E_P [y^2|\mathbf{x}]=(f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}]。……(3)

将(2)(3)代入(1),得 E P [ ( y h ( x ) ) 2 x ]   = E P [ ( h ( x ) ) 2 x ] + E P [ y 2 x ] 2 f ( x ) h ( x )   = ( h ( x ) ) 2 + E P [ ( h ( x ) h ( x ) ) 2 x ] + ( f ( x ) ) 2 + E P [ ( y f ( x ) ) 2 x ] 2 f ( x ) h ( x )   = E P [ ( h ( x ) h ( x ) ) 2 x ] + ( f ( x ) h ( x ) ) 2 + E P [ ( y f ( x ) ) 2 x ] ( ) E_P[(y−h(\mathbf{x}))^2|\mathbf{x}] \\\,\\=E_P [(h(\mathbf{x}))^2|\mathbf{x}] +E_P[y^2|\mathbf{x}] -2f(\mathbf{x})\overline{h}(\mathbf{x}) \\\,\\=(\overline{h}(\mathbf{x}))^2+E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] \\+ (f(\mathbf{x}))^2+E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] \\-2f(\mathbf{x})\overline{h}(\mathbf{x}) \\\,\\=E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] +(f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 + E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] 。……(*)
大功告成!!!!!!!!!!!!!!!!!!!!!!!!!!!!

  • E P [ ( h ( x ) h ( x ) ) 2 x ] E_P [(h(\mathbf{x})-\overline{h}(\mathbf{x}))^2|\mathbf{x}] 为 预测的 方差
  • ( f ( x ) h ( x ) ) 2 (f(\mathbf{x})-\overline{h}(\mathbf{x}))^2 平方偏差
  • E P [ ( y f ( x ) ) 2 x ] E_P [(y-f(\mathbf{x}))^2|\mathbf{x}] 噪声

猜你喜欢

转载自blog.csdn.net/itnerd/article/details/82764964