统计学习方法三要素

    本文节选自李航博士《统计学习方法》第一章第三节的内容。文中将统计学习方法简单表示为如下公式。另外,后文中提及的内容主要是针对监督学习进行说明。

方法=模型 + 策略 + 算法

    监督学习过程中,模型就是所要学习的条件概率分布或决策函数(即训练集到样本集的映射函数)。其假设空间包括所有可能的条件概率分布或决策函数。

    策略用于帮助从假设空间中选择最优模型。此时引入损失函数和风险函数,前者是对衡量模型一侧预测的好坏,风险函数是度量平均意义下模型预测的好坏。更直观的讲应该是度量预测错误的程序。如以下常见的损失函数。

    这样最优模型就是期望风险的最小化,即

    实际使用过程中,仅考虑样本的影响容易造成“过拟合”现象,所以引出了结构风险最小化的概念。它是为了防止过拟合而提出的策略,结构风险最小化等价于正则化,结构风险在经验风险上加上表示模型复杂度的正则化项或罚项。在假设空间、损失函数以及训练集确定的情况下,结构风险的定义如下。

    故最优模型转换为求解最优化问题

    算法指学习模型的具体计算方法。

    所以,模型训练的本质是基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后考虑用什么样的计算方法求解最优模型。

参考文献:

  1. 李航. 统计学习方法. 清华大学出版社, 2012

猜你喜欢

转载自blog.csdn.net/hzhj2007/article/details/82889123