误差与残差

误差(Errors)

观测值与真实值的偏差。

这种真实值(true value)往往是不可观测的,比如用仪器去测量一个物体的长度,无论是采用简单的直尺,还是采用高精度的游标卡尺,亦或是螺旋测微器,都无法观测到直尺的真实长度。观测值只能无限靠近真实值,却无法等同于真实值,靠近真实值的远近,即是观测误差的大小。观测值靠真实值近,则称观测误差小,否则称观测误差大。再比如,统计全球人口数也是一次对全球真实人口数的观测,地球上每时每刻都有生命在降生,同时也有生命的消逝,人类永远无法观测到全球人口的真实值,而只能通过优化统计方法来降低统计的误差。

残差(Residuals)

估计值与观测值的偏差。

这个观测值既可以是通过某种工具测量得到的,也可以是通过某种统计学方法获得的,而估计值一般是通过某种数据模型方法得到的。比如利用分层抽样的方法,从中国的1到5线城市中分别随机抽取1000个个人收入样本,收集了被调研者的收入及其基本信息。并在此基础构建了一个年龄、学历、性别、工作年限、城市发展水平的多因素模型,考察每个因素与收入之间的关系。模型建好了之后,输入观测样本的各种基本信息,便可得到模型为其计算出的收入估计值,这个估计值与观测值之间的偏差就叫做残差。
回归误差(Regression errors)/回归残差(Regression residuals)
在残差的概念解释中提到了模型,如果用来估计整体值的模型是回归模型,那么其得到的估计值与样本观测值之间的偏差就叫做回归误差或者回归残差。

方差(Variance)

每个观测值与这组观测值的算数平均值之差的平方和。

标准差(Standard deviation)

方差取平方根。

欢迎关注微信公众号:
“数据分析师手记“
这里写图片描述

猜你喜欢

转载自blog.csdn.net/fwj_ntu/article/details/82697433