训练/测试集分布不一致解法总结

参考文章:

1、训练集和测试集的分布不同 - 知乎

2、训练/测试集分布不一致解法总结 - 知乎

不同情况处理办法都不一样

第一,分布差距大是重要特征数值差距大,比如一个是 0-1,另外一个 0.5-2,如果是这种情况无解,你能做的只能扩大训练集合,因为重要特征一旦偏离,哪怕数学上都是有交集,现实上下文都是差距极大的,这和数据采集流程和规范等非技术问题有关。

第二,重要特征数据差距不大,不太重要的差距较大,这种情况可以屏蔽这些特征,或者利用类似迁移学习 prototype 那种思路约束特征输入不过于偏离训练集。

第三,所有特征数值差距都不大,但是特征之间相关性统计差距大,比如训练集当中 A 和 B 相关性更加强,但是测试集合 A 和 C 的相关性更加强,这对你模型本身高阶组合就要约束,比如上DNN 的话,前期就不是明智的选择。

第四,特征数值差距不大,特征相关性差距也不大,但是目标数值差距过大,这个好办,改变任务设置共同的中间目标,比如你说的目标值是否可以采取相对值,增长率,夏普等,而非绝对值

猜你喜欢

转载自blog.csdn.net/ytusdc/article/details/128515236
今日推荐