Python笔记7--泛化

过拟合的危险:过拟合模型在训练过程中产生的损失很低,但在预测新数据方面的表现却非常糟糕

过拟合是由于模型的复杂程度超出所需程度而造成的。机器学习的基本冲突是适当拟合我们的数据,

但也要尽可能简单地拟合数据。  

---

科学家应该优先采用更简单(而非更复杂)的公式或理论奥卡姆剃刀定律在机器学习方面的运用如下:

机器学习模型越简单,良好的实证结果就越有可能不仅仅基于样本的特性。


---

机器学习细则

以下三项基本假设阐明了泛化:

  • 我们从分布中随机抽取独立同分布 (i.i.d) 的样本。换言之,样本之间不会互相影响。(另一种解释:i.i.d. 是表示变量随机性的一种方式)。
  • 分布是平稳的;即分布在数据集内不会发生变化。
  • 我们从同一分布的数据划分中抽取样本。

在实践中,我们有时会违背这些假设。例如:

  • 想象有一个选择要展示的广告的模型。如果该模型在某种程度上根据用户以前看过的广告选择广告,则会违背 i.i.d. 假设。
  • 想象有一个包含一年零售信息的数据集。用户的购买行为会出现季节性变化,这会违反平稳性。

如果违背了上述三项基本假设中的任何一项,那么我们就必须密切注意指标。


---

在进行数据划分的时候,不光光可以划分为训练集和测试集,还可以分为训练集、验证集和测试集。

猜你喜欢

转载自blog.csdn.net/w_zhiyuan/article/details/81050801
今日推荐