西瓜书阅读笔记:第一章 绪论

西瓜书阅读笔记:第一章 绪论

1.1 引言

模型:泛指从数据中学习到的结果

1.2 基本术语

从数据中学到模型的过程被称为“学习”(learning)或者“训练”(training)。
根据数据是否有标签,可将学习分为两类:
- 有标签的学习,即监督学习
- 没有标签的学习,即无监督学习
学习目的:使得模型能用于新样本,用于新样本被称为“泛化”(generation)。

1.3 假设空间

科学推理的两大手段:归纳与演绎
-从特征推到一般:归纳(induction)
-从一般推到特殊:演绎(deduction)

学习过程可以看作是在所有的假设组成的空间中搜索的过程;
学习的目标是找到与训练数据”匹配“的一组假设。

1.4 归纳偏好

从一组数据中我们能学习出很多不同的模型。那么哪种模型更好?这取决于我们如何给出”偏好“。那么给出”偏好“是否有一些准则呢?
- ”奥卡姆剃刀“是自然科学中的一种常见准则,即有多个假设与观察一致,则选择最简单的那个。
- ”多释原则“,主要保留与经验观察一致的所有假设。(与集成学习的思想非常吻合)。
那么还有其他准则么?
根据NFL定理(no free lunch theorem), 可证明误差与学习算法无关。但是NFL定理建立在一个假设上:f(真实目标的函数)是均匀分布的。实际上,f并不是均匀分布的。根据我们对f的偏好来选择不同的模型。

1.5 发展历程

1950s~1970s:人工只能的”推理期”:认为教会机器”推理“,则能产生人工智能。
1970中期:人工智能的”知识期“:光有推理不行,还需要教给机器”知识“。

当”知识期“瓶颈后,学者希望找到一个方法使得机器自己能学习知识。但在这之前,学术界已经有一些零碎的关于这方面的研究了。比如:
50年代初,A.Samuel的跳棋程序;
50年代中后期,基于神经网络的”连接主义“, 比如感知机;
60、70年代,基于逻辑表示的”符号主义“,
60、70年代,统计学习理论

1980年开始,机器学习主题的研讨会和期刊开始涌现。期间,机器学习研究有多种划分方式。其中一种划分是将其划分为:从样例中学习、在问题求解和规划中学习、在通过观察和发现学习、从指令中学习等。”从样例中学习“是研究最多、应用最广的。在80年代到90年代中期之前,”从样例中学习“包括两大主流:符号主义学习和基于神经网络的”连接主义学习“。

1990中期开始,统计学习登上主流舞台。代表性技术:支持向量机及核方法。
21世纪以来,连接主义学习又卷土重来。即深度学习。

1.6 应用现状

数据科学的核心是通过分析数据来获得价值。机器学习是数据科学的的技术支撑,是分析数据的一种技术手段。
数据挖掘:数据库领域为数据挖掘提供数据管理技术;机器学习为数据挖掘提供数据分析技术。

猜你喜欢

转载自blog.csdn.net/weixin_40930415/article/details/82190472