评估方法的优缺点

1、过拟合:当学习器把训练样本学的太好,很可能把已经训练的样本特点当做了所有潜在样本都会有的一般性质,这样就会导致泛华能力下降(泛化能力指学习的模型应用在未知的样本中的能力)。

2、欠拟合:指学习能力低下,认为很一般的特点都是所有的特点。

评估方法:

  1. 留出法:若训练集包含绝大多数样本,则训练出的样本可能就接近想要的训练模型,但是由于测试集较小,评估结果可能就不够准确,基本划分的数据集的模式:2:1,4:1前面分别用做训练,后面的用作测试。
  2. 交叉验证法:等分,分层采样,取均值,缺陷则是:在数据集较大开销太大,花费时间较多。
  3. 自助法:循环从整体数据中取放进样例中,又放回的抽取,最终初始数据有0.368的样本未出现,用于测试。自助法能从初始数据集中出现的样本用于测试,这样的测试也称为包外估计。优点:自助法在数据集较小,难以有效划分训练\测试集时候很有用,能从初始数据集中产生多个不同的训练集,缺点:但是改变了数据集分布,这会引入估计偏差

但是在初始数据量足够时候,留出法和交叉验证法更常用。

调参与最终参数模型:

调参的一般准则:对每个参数选定一个范围和一个变化的步长,这是这是在计算开销与性能的折中方案。

性能度量:衡量模型泛华能力的度量,性能不仅取决于算法和数据,还决定任务需求。

回归任务最常用的性能度量均方误差。

查全率 (TP/(TP+FN))、查准率(TP/(TP+FP)):TP真正例 FP假正例 TN真反例 FN假反例

F1是基于查全率与查准率的调和平均定义的:2*TP/(样例总数+TP-TN)

ROC:受试工作特征。  横轴TPR(真正例)=TP/(TP+FN),纵轴FPR(假正例):FP/(TN+FP)。

规范化:将不同变化范围的值映射到相同固定范围内,常见的是[0,1],也称归一化。

偏差:期望输出与真实标记的差别,刻画学习算法本身的拟合能力。

泛化误差可分解为偏差、方差(度量了同样大小训练集的变动所导致的学习性能的变化吗,刻画了数据扰动所造成的影响)、与噪声(表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界)之和。

猜你喜欢

转载自blog.csdn.net/qq_41479464/article/details/124182324