西瓜书阅读笔记：第一章绪论

西瓜书阅读笔记：第一章绪论

1.1 引言

模型：泛指从数据中学习到的结果

1.2 基本术语

从数据中学到模型的过程被称为“学习”(learning)或者“训练”（training）。
根据数据是否有标签，可将学习分为两类：
- 有标签的学习，即监督学习。
- 没有标签的学习，即无监督学习。
学习目的：使得模型能用于新样本，用于新样本被称为“泛化”（generation)。

1.3 假设空间

科学推理的两大手段：归纳与演绎
-从特征推到一般：归纳（induction）
-从一般推到特殊：演绎（deduction）

学习过程可以看作是在所有的假设组成的空间中搜索的过程；
学习的目标是找到与训练数据”匹配“的一组假设。

1.4 归纳偏好

从一组数据中我们能学习出很多不同的模型。那么哪种模型更好？这取决于我们如何给出”偏好“。那么给出”偏好“是否有一些准则呢？
- ”奥卡姆剃刀“是自然科学中的一种常见准则，即有多个假设与观察一致，则选择最简单的那个。
- ”多释原则“，主要保留与经验观察一致的所有假设。（与集成学习的思想非常吻合）。
那么还有其他准则么？
根据NFL定理（no free lunch theorem), 可证明误差与学习算法无关。但是NFL定理建立在一个假设上：f（真实目标的函数）是均匀分布的。实际上，f并不是均匀分布的。根据我们对f的偏好来选择不同的模型。

1.5 发展历程

1950s~1970s：人工只能的”推理期”：认为教会机器”推理“，则能产生人工智能。
1970中期：人工智能的”知识期“：光有推理不行，还需要教给机器”知识“。

当”知识期“瓶颈后，学者希望找到一个方法使得机器自己能学习知识。但在这之前，学术界已经有一些零碎的关于这方面的研究了。比如：
50年代初，A.Samuel的跳棋程序；
50年代中后期，基于神经网络的”连接主义“，比如感知机；
60、70年代，基于逻辑表示的”符号主义“，
60、70年代，统计学习理论

1980年开始，机器学习主题的研讨会和期刊开始涌现。期间，机器学习研究有多种划分方式。其中一种划分是将其划分为：从样例中学习、在问题求解和规划中学习、在通过观察和发现学习、从指令中学习等。”从样例中学习“是研究最多、应用最广的。在80年代到90年代中期之前，”从样例中学习“包括两大主流：符号主义学习和基于神经网络的”连接主义学习“。

1990中期开始，统计学习登上主流舞台。代表性技术：支持向量机及核方法。
21世纪以来，连接主义学习又卷土重来。即深度学习。

1.6 应用现状

数据科学的核心是通过分析数据来获得价值。机器学习是数据科学的的技术支撑，是分析数据的一种技术手段。
数据挖掘：数据库领域为数据挖掘提供数据管理技术；机器学习为数据挖掘提供数据分析技术。