监督学习中需要注意的问题

监督学习中需要注意的问题

1、偏置和方差权衡

  第一个问题就是偏见和方差之间的权衡。
  较低的学习算法偏差必须“灵活”,这样就可以很好的匹配数据。但如果学习算法过于灵活,它将匹配每个不同的训练数据集,因此有很高的方差。许多监督学习方法的一个关键方面是他们能够调整这个偏差和方差之间的权衡(通过提供一个偏见/方差参数,用户可以调整)。

2、功能的复杂性和数量的训练数据

  第二个问题是训练数据可相对于“真正的”功能(分类或回归函数)的复杂度的量。
  如果真正的功能是简单的,则一个“不灵活的”学习算法具有高偏压和低的方差将能够从一个小数据量的学习。但是,如果真功能是非常复杂的(例如,因为它涉及在许多不同的输入要素的复杂的相互作用,并且行为与在输入空间的不同部分),则该函数将只从一个非常大的数量的训练数据,并使用可学习“灵活”的学习算法具有低偏置和高方差。因此,良好的学习算法来自动调整的基础上可用的数据量和该函数的明显的复杂性要学习的偏压/方差权衡。

3、输入空间的维数

  如果输入特征向量具有非常高的维数,学习问题是很困难的,这是因为许多“额外”的尺寸可混淆的学习算法,并使其具有高方差。
  因此,高的输入维数通常需要调整分类器具有低方差和高偏置。
  在实践中,如果工程师能够从输入数据手动删除不相关的特征,这是有可能改善该学习功能的准确性。此外,还有许多算法的特征选择,设法确定相关特征,并丢弃不相关的。

4、噪声中的输出值

  第四个问题是在所需要的输出值的噪声的程度。
  当没有测量误差(随机噪声),如果你正在努力学习功能,是您学习模式太复杂,你甚至可以过度拟合。在这种情况下的目标函数,该函数不能被模拟“腐化”你的训练数据的那部分-这一现象被称为确定性的噪声。当任一类型的噪声存在时,最好是去一个更高的偏见,低方差估计。

猜你喜欢

转载自blog.csdn.net/wydbyxr/article/details/84644555