《统计学习方法》学习笔记1——统计学习三要素

什么是统计机器学习/统计学习/机器学习？

三个词指的都是同一概念，这里统一简称为机器学习，指的是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

实现机器学习的步骤是什么？

得到有限的训练数据集合
确定包含所有可能的模型的假设空间，即学习模型的集合
确定模型选择的准则，即学习的策略
实现求解最优模型的算法，即学习的算法
通过学习算法选择最优模型
利用学习的最优模型对新数据进行预测或分析

机器学习的分类

机器学习包括监督学习、非监督学习、半监督学习以及强化学习。

监督学习：训练数据同时包括输入和输出，也可以说是特征和目标。监督学习就是常见的分类问题。（《统计学习方法中主要讨论监督学习》）

非监督学习：输入数据没有标记，也没有确定的结果。样本数据类别未知，需要根据样本间的相似性对样本进行分类。

半监督学习：同时使用标记数据和未标记数据来进行模式识别工作。样本中只有少量带标记的样本，多数样本都未标记，利用这样的样本进行学习和统计。

强化学习：不同于前三种的学习方式，没有规则的训练样本和标签，主要通过奖励和惩罚达到学习的目的。

机器学习的核心三要素

统计机器学习方法都是由模型、策略和算法构成的。即：机器学习=模型+策略+算法。

扫描二维码关注公众号，回复： 3433100 查看本文章

模型：机器学习首要考虑的问题是学习什么样的模型。模型选择的典型方式是正则化和交叉验证。
策略：有了模型以后，机器学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。简单来说，在假设模型的基础上，用输入数据去产生输出，然后比较模型的s输出与数据真实输出之间的差别，换用数学表达就是损失函数或代价函数。当损失函数的值达到最小时，就找打了最优的结果。这样，监督问题就变成了经验风险或者结构风险函数的最优化问题。
算法：统计学习问题归结为最优化问题，统计学习的算法成为求解最优化问题的算法。

后计

机器学习的核心内容就是模型、策略和算法。通过假定模型，确定损失函数，确定求解损失函数的算法后，通过数据我们就可以得到一个学习结果。

然而，这并不是机器学习的全部。这样得到的学习机在已有数据上一定会有良好的表现，但并不意味着它在新数据上也能有同样好的表现，这这种能力（泛化）才是我们的学习机最应该具备的能力。同时，如果只假设了一个估计模型并得到了学习结果，因为没有参照和对比那我们就无法得知他的真实性能是差还是好，不知道他的性能是不是可以更好。

因此，在实际的开发中，我们不会用全部数据去训练一个模型。原始数据常常被分成3部分：训练数据（Training set 60%），验证数据（Validation set 20%）和测试数据（Test set 20%）。

训练数据帮助我们得到模型，验证数据帮助我们选择模型，测试数据用于最终测试模型的泛化能力。

《统计学习方法》学习笔记1——统计学习三要素

猜你喜欢