第1章统计学习方法概论

统计学习

统计学习（statistical learning）是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科，统计学习也称为统计机器学习（statistical machine learning）。
统计学习的主要特点
- 统计学习以计算机及网络为平台，是建立在计算机及网络之上的；
- 统计学习以数据为研究对象,是数据驱动的学科；
- 统计学习的目的是对数据进行预测与分析；
- 统计学习以方法为中心，统计学习方法构建模型并应用模型进行预测与分析；
- 统计学习是概率论、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科，并且在发展中逐步形成独自的理论体系与方法论。
学习的定义：如果一个系统能够通过执行某个过程改进它的性能，这就是学习。统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。

统计学习用于对数据进行预测与分析，特别是对未知新数据进行预测与分析。
对数据的预测可以使计算机更加智能化，或者说使计算机的某些性能得到提高。
对数据的分析可以让人们获取新的知识，给人们带来新的发现。
对数据的预测与分析是通过构建概率统计模型实现的。统计学习总的目标就是考虑学习什么样的模型和如何学习模型，以使模型能对数据进行准确的预测与分析，同时也要考虑尽可能地提高学习效率。

统计学习的方法是基于数据构建统计模型从而对数据进行预测与分析。
统计学习由监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-supervised learning）和强化学习（reinforcement learning）等组成。
监督学习的方法
- 从给定的、有限的、用于学习的训练数据（training data）集合出发；
- 假设数据是独立同分布产生的，并且假设要学习的模型属于某个函数的集合称为假设空间（hypothesis space）；
- 应用某个评价准则（evaluation criterion），从假设空间中选取一个最优的模型，使它对已知训练数据及未知测试数据（test data）在给定的评价准则下有最优的预测；
- 最优模型的选取由算法实现。
统计学习方法的三要素
- 模型（model）：模型的假设空间；
- 策略（strategy）：模型选择的准则；
- 算法（algorithm）：模型学习的算法。
实现统计学习方法的步骤如下：
- 得到一个有限的训练数据集合；
- 确定包含所有可能的模型的假设空间，即学习模型的集合；
- 确定模型选择的准则，即学习的策略；
- 实现求解最优模型的算法，即学习的算法；
- 通过学习方法选择最优模型；
- 利用学习的最优模型对新数据进行预测或分析；