《机器学习》笔记——绪论

这是本人学习《机器学习》的笔记【周志华著】

第一章 绪论

一、基本术语

(1)分类与回归的区别:分类【classification】的预测值是离散的,回归【regression】的预测值是连续的;其中分类又有二分类和多分类之分;分类和回归是监督学习的代表;
(2)聚类是无监督学习的代表;
(3)通常来讲,现实世界的特定问题可以看做一个巨大的样本空间,这个样本服从未知的分布D,我们从这个样本空间中独立地获取样本,即“独立且同分布”;我们要做的就是要从我们获取的样本中训练模型,并且最大限度使得这个模型能够“泛化”到整个样本空间;

二、假设空间

(1)归纳和演绎是科学推理的两种基本的手段,机器学习是一个归纳的过程。归纳包含广义和狭义之分,广义的归纳大体上相当于样本学习,我们现在的机器学习实际上就是广义的归纳;狭义的归纳是“概念学习”,是从训练数据中总结出概念【基本上相当于从样本中总结出规律,上升为一个概念】,这种归纳现在研究、应用都比较少;
(2)假设空间:学习的过程可以看做在假设空间中进行搜索的过程; 理解起来就是:现实的问题是有规律可言的,我们的模型包含成千上万的参数来模拟这样的现实问题,这个所有参数每一个取值构成的组合,就是假设空间,我们要做的就是要在这样的假设空间中搜索这样的一组假设,使它最接近于真是(ground-truth)

三、归纳偏好

(1)归纳偏好指机器学习算法在学习的过程中对于某种类型假设的偏好(这里是考虑到会有不止一个模型会较好地拟合训练数据,这样,在做出选择的时候所表现出的偏好)
(2)奥卡姆剃须刀原理:若有多个假设与观察一致,则选择最简单的那一个;【即便是这个原理,在面对具体的问题可能会有多种诠释】
(3)一个算法A,在一个问题上表现比算法B好,必然存在另一个问题,算法B表现比A好
(4)没有免费午餐定理(No Free Lunch Theorem,NFL):这个定理说明,所有学习算法的期望性能和瞎猜差不多;这个定理的前提是所有问题同等重要、所有问题出现的几率相同;但是现实生活中,我们可能只是关心特定的问题,所以我们能够找到一个算法能够针对某一个问题表现比较好;
(5)NFL定理最重要的是:具体问题具体分析,不能脱离实际问题空谈什么样的算法比较好;学习算法自身的归纳偏好要与具体问题相匹配;

四、发展历程

(1)从样本中学习,是从八十年代开始的,最初是符号主义盛行(深度学习,即连接主义不是主流,但是已经出现),符号主义主要包括决策树(decision tree)和基于逻辑的学习;
(2)90年代兴起统计学习,主要代表是支持向量机(SVM)和核方法
(3)21世纪初,由于计算力和数据量的大幅提升,连接主义以深度学习为名,再次兴起。

发布了23 篇原创文章 · 获赞 0 · 访问量 659

猜你喜欢

转载自blog.csdn.net/forever_008/article/details/103713830