过拟合产生的原因有哪些

1建模样本抽取错误:包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务特点,等等导致抽出的样本数据不能有效足够代表业务逻辑或业务场景;

2样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽略了真实的输入输出间的关系;

3建模时的逻辑假设到了模型应用时已经不能成立了。任何预测模型都是在假设的基础上才可以搭建和应用的,常用的假设包括:假设历史数据可以推测未来,假设业务环节没有发生显著变化,假设建模数据与后来的应用数据是相似的,等等。如果上述假设违反了业务场景的话,根据这些假设搭建的模型当然是无法有效应用的。

4参数太多、模型复杂度高

5决策树模型。如果我们对于决策树的生长没有合理的限制和修剪的话,决策树的自由生长有可能每片叶子里只包含单纯的事件数据(event)或非事件数据(no event),这种决策树当然可以完美匹配(拟合)训练数据,但是一旦应用到新的业务真实数据时,效果是一塌糊涂。

6神经网络模型。

a.由于对样本数据,可能存在隐单元的表示不唯一,即产生的分类的决策面不唯一.随着学习的进行, BP算法使权值可能收敛过于复杂的决策面,并至极致.

b.权值学习迭代次数足够多(Over training),拟合了训练数据中的噪声和训练样例中没有代表性的特征.

猜你喜欢

转载自blog.csdn.net/zrh_csdn/article/details/80934296