机器学习之偏差方差

一.偏差和方差

1.偏差和方差分别是用于衡量一个模型泛化误差的两方面：

模型偏差：模型预测的期望值和真实值之间的差。
模型方差：模型预测的期望值和预测值之间的差的平方

2.监督学习，模型泛化误差可以分为偏差/方差/噪声的和

所以偏差表示的是模型的拟合能力。方差描述的是模型内部的稳定性。

1.导致偏差和方差的原因

偏差描述的是模型对于真实函数的拟合能力，出现偏差较大的原因，简单说就是没有拟合好。可能真实的函数是二次的，而预测的模型是一次的，所以这个就是欠拟合。所以偏差引起的误差通常是在训练的时候体现，所以训练的误差主要是有偏差引起的。
方差描述的是模型在测试集上泛化的能力问题。当模型的复杂度过高。真是模型是一个二次的，结构模型是高次的。就会导致方差的增大。也就是过拟合。方差引起的误差主要体现在测试误差对训练误差的增量上。

2.深度学习中偏差和方差

深度学习的模型拟合能力都很强，所以训练误差相对较低，所以偏差就较低。但是过强的拟合会出现较大的方差，模型的测试误差（泛化误差）增大。所以深度学习中核心的一项工作就是降低模型的泛化误差，这类方法称为正则化方法。

3.计算公式

1)在训练集D上的模型函数：

2)模型的预测的期望值：

3)偏差：

偏差所度量的是学习算法的期望预测和真实结果偏离程度，刻画的是学习算法自身拟合的能力。
4)方差：

方差度量的是训练集的数据变动所带来的影响，刻画的是数据扰动造成的影响（模型的稳定性）
5)噪音：表示的是抛开数据影响和算法影响，所能达到期望泛化误差的下界，刻画的是问题本身自带的难度。
6)偏差和方差表明的就是模型泛化能力是由算法能力，数据效果和任务自身难度共同决定的。

4.模型中偏差和方差权衡

模型训练从开始到结束，当训练开始时，模型还不能很好的拟合真实的函数，这个过程就是欠拟合，误差主要有训练误差为主，也就是偏差为主。当模型不断的训练，拟合的效果增加，训练误差减小，方差将逐步成为误差的主要，在这个过程中会产生最优的模型参数可以使得误差局部最小。当训练充分后，模型的拟合能力过强，就会产生过拟合的现象，这个时候训练数据的扰动都会很大程度的影响模型，偏差很低但是方差不断增加，误差也逐渐增加。