西瓜书学习笔记之绪论

1、基本术语

数据集:收集了一些数据,每个数据类似(色泽=青绿;根蒂=蜷缩;敲声=浊响)这样的记录,一般可以用D{X1,X2,…Xm},表示m个示例构成的数据集。
示例/样本/特征向量(feature vector):每条数据集中的记录是关于一个事件或对象的描述,将其称为特征向量是因为每个示例的属性值构成一个向量。
属性/特征:反映事件或者对象在一些方面的表现或性质的事项。
属性值:属性上面的取值。
属性空间/样本空间/输入空间:属性张成的空间,可以理解是这样的,假如三个属性是三个坐标轴,于是构成一个用于描述西瓜的三维空间。
学习/训练:通过从数据中学得“模型”的过程称为学习或者训练。这个过程通过执行某个学习算法来完成。
训练数据:训练过程中使用的数据。
训练样本:训练数据中的每个样本。
训练集:训练样本组成的集合称为训练集。
假设:学得模型对应了关于数据的某种潜在的规律。
真相/真实:这种潜在规律自身称为真相或者真实。
学习器/模型:学习算法在给定数据和参数空间上的实例化。
预测模型:判断一个没破开的瓜是不是好瓜。
标记:对于每条示例给出一个结果,比如是好瓜。
样例:拥有了标记的示例称为样例。
标记空间/输出空间:一般用(xi,yi)来表示第i个样例,其中yi是标记,所有标记的集合则称为标记空间或者输出空间。
分类:想要预测的是离散值。好瓜还是坏瓜。
回归:若预测的是连续值,例如西瓜的成熟度是0.95等,这类学习任务称为回归。
测试:得到模型后,用于预测的过程称为测试。
测试样本/测试示例/测试例:用于测试的样本。
聚类:即将训练集中的西瓜分成若干组,每组称为一个簇(cluster),这些自动形成的簇可能对应一些潜在的概念划分。需要注意的是聚类的训练样本并不是拥有标记信息。
监督学习(supervised learning):训练数据拥有标记信息。分类和回归是这一类的典型代表。
无监督学习(unsupervised learning):训练数据不拥有标记信息。聚类是这类的典型代表。
泛化能力:学得模型适用于新样本的能力称为泛化能力,具有强泛化能力的模型很好的适用于整个样本空间。
独立同分布:通常假设样本空间全体样本服从一个未知分布D,每个样本都是独立同分布

假设空间

对于科学推理存在两种方式,归纳和演绎。归纳是特殊到一般的泛化过程,也就是从一般事务中得到规律。演绎则是用基础原理去推演一些具体情况。
归纳学习有狭义和广义之分,可以理解的广义归纳学习相当于从样例中学习。狭义归纳学习则从训练数据中学得概念,也称为概念学习。在概念学习中最为基本的是布尔概念学习,只有两个目标概念。
文中给出的具体描述可以理解为:一个学习过程看成是对一个假设空间的搜索,在假设空间中找到一个假设可以满足训练集中所有的要求,于是所需要的学习结果就有了。但是有时候这种假设不止一个,于是所有类似的假设构成一个“版本空间”。

归纳偏好

其实一个假设对应一个模型,在版本空间中,对于模型做选择,选哪种呢?
这里明确一下,“归纳偏好”有两种(书中的意思是给出两种,至于别的没说),其一:对于训练集的分析产生的特征选择,然后给出归纳偏好;其二:根据某种领域的知识积累而得出的归纳偏好。注意一个算法/模型必须有归纳偏好,通俗的讲归纳偏好也就是那种算法/模型更加适合,与解决的问题是否匹配。
那么对于归纳偏好是否有一般性的原则呢?
“奥卡姆剃刀”:若有多个假设与观察一致,则选择最简单的那个。但是很遗憾这个一般性原则往往并不是最合适的。
文中给出了一个证明:(缺少NFL定理证明部分)
给出讨论的结果也就是NFL(no free lunch theorem):在所有问题出现机会相同的情况下,无论学习算法多好,或者多么糟糕,但是他们得到的期望值却是相同的。

发展历程

1950~1970,A.Newell 和H.Simon 的“逻辑理论家”程序证明了很多定理,因此获得1975年图灵奖。
1975~1994:E.A.Feigenbaum认为机器需要具有知识才能智能,于是人工智能进入“知识期”。其中DENDRAL专家系统作为第一台专家系统有Feigenbaum在1965年完成。因此Feigenbaum作为知识之父获得1994年的图灵奖。
1950:图灵测试文章中出现机器学习。
1950初:机器学习出现相关研究,其中A.Samuel的跳棋程序。
1955~1960:出现神经网络的“连接主义”,有F.Rosenblatt的感知机,B.Widrow的Adaline等作为代表作。
1960~1970:基于逻辑表示的“符号主义”发展起来,P.Winston的“结构学习系统”等
1960~1970:基于决策理论为基础的学习技术和强化学习技术也得到发展,比如N.J.Nilson的“学习机器”.
1990~:统计学习理论也开始发展起来。
上面给出了机器学习的大概兴起的方向和时间,下面则开始给出一些机器学习整体性的知识架构。
R.S.Michalski等人把机器学习分为四大类:
从样例中学习;在问题求解和规划中学习;通过观察和发现学习;从指令中学习。
E.A.Feigenbaum等人则将机器学习分为这四类:
归纳学习,机械学习,类比学习,示教学习。
两种分类法除了第二类均是不同,其余三类都是一一对应的类似。
NOTE:从样例中学习也就是广义归纳学习是这些年发展的最多的。
接下来对于归纳学习进行方向分类:
符号学习:决策树和基于逻辑的学习。
典型的决策树学习以信息论作为基础,以信息熵的最小化作为目标,直接模拟人类对概念进行判断的树形流程。简单。
基于逻辑的学习著名代表是归纳逻辑程序设计ILP(Inductive Logic Programming),是机器学习和逻辑程序设计的交叉,通过一阶逻辑来对知识进行表示,修改和扩充逻辑表示式来完成对数据的归纳。缺点:假设空间太大,复杂度很高。
基于神经网络的连接主义学习:在1983年,J.J.Hopfield利用神经网络求解"流动推销员问题"取得进展。1986年D.E.Rumelhart等人发明了BP算法。缺点:缺乏理论,“黑箱模型”,手工调参。
统计学习:支持向量机(SVM)以及更一般的核方法。重要概念:支持向量,VC维,结构风险最小化原则。
深度学习:就是复杂的神经网络。对于语音和图像等复杂对象应用中比较优越。特点:需要数据量大,数据样本少容易过拟合。需要强力的计算设备。

发布了2 篇原创文章 · 获赞 0 · 访问量 636

猜你喜欢

转载自blog.csdn.net/pt798633929/article/details/103193952
今日推荐