【统计学习笔记】模型选择方法:正则化与交叉验证

【统计学习笔记】模型选择方法:正则化与交叉验证

1. 正则化

正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项。正则化项一般是模型复杂度的单调递增函数。正则化一般具有如下形式:
min ⁡ f ∈ F = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) + λ J ( f ) … … ( 1 ) \min\limits_{f\in\mathcal{F}}=\frac{1}{N}\sum\limits_{i=1}^NL(y_i,f(x_i))+\lambda J(f) ……(1) fFmin=N1i=1NL(yi,f(xi))+λJ(f)1
正则化项可以取不同的形式。例如,回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数或L1范数等。

2. 交叉验证

将数据切分为训练集、验证集和测试集,训练集用于训练模型,验证集用于选择模型,测试机用于评估学习方法。

2.1 简单交叉验证

  • 随机将数据分为训练集和测试集。
  • 用训练集在不同条件下训练模型,从而得到不同的模型。
  • 在测试集上评价各个模型的测试误差,选出测试误差最小的模型。

2.2 S折交叉验证

  • 随机将已有数据分为S个互不相交、大小相同的子集。
  • 利用S-1个子集训练模型,余下子集测试模型。
  • 将这一过程的S种选择重复进行。
  • 选出S次评测中平均测试误差最小的模型。

2.3留一交叉验证

S折交叉验证中,每个子集只有一个数据,即S=N。往往在数据缺乏的情况下使用。

猜你喜欢

转载自blog.csdn.net/qq_39573785/article/details/107189926