机器学习(MACHINE LEARNING) 【周志华版-”西瓜书“-笔记】 DAY1-绪论

在这里插入图片描述

我太喜欢这本书了 ,因为封面很好看 。PS:划重点是教科书!需要一定基础,京东正版有售~

1.1 引言

机器学习:例如我们人吃过,看过很多西瓜,
所以基于色泽。根蒂,敲声这几个特征我们就可以做出相当好的判断。

1.2 相关术语

挑几个重要的说一下 所有的术语类似一种抽象 其他的自己理解一下
从数据中学得模型的过程称为”学习“(learning)或”训练“(training),这个过程通过执行某个学习算法来完成。
训练过程中使用的数据称为“训练数据”(tarining data),其中每一个样本称为一个“训练样本”(tarining sample),训练样本组成的集合称为“训练集”(training set)。
学得模型对应了关于数据的某种潜在规律,因此亦称为“假设”(hypothesis);
这种潜在规律自身,则称为“真相”或“真实”(ground-truth),学习过程就是为了找出或逼近真相。
有时将模型称为“学习器”(learner),可看作学习算法在给定数据和参数空间上的实例化。

1.3 假设空间

归纳(induction)与演绎(deduction)是科学推理的两个大基本手段。前者是从特殊到一半的泛化(generalization)过程,即从具体的事实归结出一半性规律;后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。

 

归纳学习有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为“概念学习“或”概念形成“。

 

概念学习中最基础的是布尔概念学习,即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习。

 

我们可以把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的瓜判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。


如下图,西瓜问题的假设空间:
在这里插入图片描述
在对假设空间进行操作的时候,可以有许多策略对这个假设空间进行搜索,例如自顶向下、从一般到特殊,或是自底向上、从特殊到一般,搜索过程中可以不断上删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。需要注意的是,现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间”(version space)。例如,在西瓜问题中,与图1.1训练集所对应的版本空间如下图所示
在这里插入图片描述
1.4归纳偏好
对于一个具体的学习算法而言,它必须要产生一个模型。这个时候,学习算法本身的“偏好”就会起到关键的作用。例如,若我们的算法喜欢“尽可能特殊”的模型,则它会选择“好瓜<->(色泽=)∧(根蒂=蜷缩)∧(敲声=浊响)”;但若我们的算法喜欢“尽可能一般”的模型,并且由于某种原因它更“相信”根蒂,则它会选择“好瓜<->(色泽=)∧(根蒂=蜷缩)∧(敲声=*)”。机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”或简称为“偏好”

在这里插入图片描述
在这张图中,存在多条曲线与有限样本训练集一致。
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行在选择启发性或“价值观”。那么,有没有一般性的原则来引导算法确立“正确的”偏好呢?“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。

事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

假设学习算法ξa基于某种归纳偏好产生了对应于曲线A的模型,学习算法ξb基于另一种归纳偏好产生对应于曲线B的模型
在这里插入图片描述
1.5发展历程

机器学习是AI研究发展到一定阶段的必然产物,事实上,图灵在1950年关于图灵测试的文章中,就曾提到了机器学的可能。
机器学习现在已经发展成为一个相当大的领域。

1.6应用现状
在这里插入图片描述
今天,在计算机科学的诸多分支学科领域中,无论是多媒体,图形学,还是网络通信,软件工程,乃至体系结构,芯片设计,都能找到机器学习技术的身影。
机器学习还为许多交叉学科提供了重要的技术支撑。
1.7阅读材料

外文资料库有很多机器学习相关论文和期刊(不推荐中文数据库),感兴趣的读者都可以阅读掌握。

发布了545 篇原创文章 · 获赞 129 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/weixin_43838785/article/details/104180380