训练集、测试集、验证集之间的区别及理解

在写代码时，数据集的划分时常影响我们的准确率，好的数据集划分一般分为训练集(training set),验证集(development set/validation set)和测试集(test set)。

一、训练集、验证集、测试集之间的区别及其作用

训练集

训练集:用于模型拟合的数据样本,即用于训练的样本集合,主要用来训练神经网络中的参数,

验证集

验证集：模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估。

测试集

测试集：用来评估模最终模型的泛化能力。但不能作为调参、选择特征等算法相关的选择的依据。

各数据集的作用
P1:训练集的作用
拟合模型，调整网络权重。
P2:验证集的作用
作用1：快速调参，也就是通过验证集我们可以选择超参数（网络层数、网络节点数、迭代次数epoch、学习率learning rate、优化器）等。
作用2：选择超参数，为了让我们的模型在测试集表现得更好，调参是不可避免地一部分，如果把测试集当验证集，调参去拟合测试集合，是不可行地，这相当于作弊。
作用3：监控模型是否正常
验证集的重要性：
如果没有设置验证集，我们通常得等到测试集才可以知道我们模型真正得实力，然后再来调整参数，这样子时间代价较高，通过验证集我们可以训练几个epoch后查看模型的训练效果及我们的网络是否出现异常，然后决定怎么调整我们的超参数。
P3:测试集的作用
仅仅用来评估模最终模型的泛化能力，确认网络的实际预测能力。
个人对数据集的理解:[训练集train,测试集test，验证集val]
我的理解是∶
test是一个神秘的人，也是一个有选择困难症的人，它不参与参数学习的过程也不参与参数的选择过程，test依旧是蒙娜丽莎的微笑。test就好像沉迷于桃花林的评价者，它只会给经历磨难(训练）的net打分，其他的事情它一概不管。
那么net应该怎么确定自己变得更加优秀，在武林排行版上排位上升，使得其在最后获得高分而顺利出关呢？由此便诞生了val，val就好像是net的师傅，在net取经路上给出建议和及时终止不恰当的行为，既让net可以提高自己的能力，也可以避免net走火入魔。而net也不是一个啃老族，他也会依靠自己的训练来提高，即train。

一个更为简单的理解，来源于：[链接在此]
在这里插入图片描述

训练集-----------学生的课本；学生 根据课本里的内容来掌握知识。

验证集------------作业，通过作业可以知道 不同学生学习情况、进步的速度快慢。

测试集-----------考试，考的题是平常都没有见过，考察学生举一反三的能力。

网络的步骤：
Step1:训练普通参数。
在训练集(给定超参数)上利用学习算法,训练普通参数,使得模型在训练集上的误差降低到可接受的程度(一般接近人类的水平)。
Step2:'训练’超参数。
在验证集上验证网络的generalization error(泛化能力),并根据模型性能对超参数进行调整。
Step3:重复1和2两个步骤,直至网络在验证集上取得较低的generalization error。此时完整的训练过程结束.在完成参数和超参数的训练后,在测试集上测试网络的性能。

关于此篇博客，我参考的其他博客的链接：
[链接1]
[链接2]

xiaobaizaza_Ry

发布了10 篇原创文章 · 获赞 0 · 访问量 252

私信关注

训练集、测试集、验证集之间的区别及理解

训练集、测试集、验证集之间的区别及理解

一、训练集、验证集、测试集之间的区别及其作用

猜你喜欢