西瓜书学习笔记之绪论

1、基本术语

数据集：收集了一些数据，每个数据类似（色泽=青绿；根蒂=蜷缩；敲声=浊响）这样的记录，一般可以用D{X1,X2,…Xm}，表示m个示例构成的数据集。
示例/样本/特征向量(feature vector)：每条数据集中的记录是关于一个事件或对象的描述，将其称为特征向量是因为每个示例的属性值构成一个向量。
属性/特征：反映事件或者对象在一些方面的表现或性质的事项。
属性值：属性上面的取值。
属性空间/样本空间/输入空间：属性张成的空间，可以理解是这样的，假如三个属性是三个坐标轴，于是构成一个用于描述西瓜的三维空间。
学习/训练：通过从数据中学得“模型”的过程称为学习或者训练。这个过程通过执行某个学习算法来完成。
训练数据：训练过程中使用的数据。
训练样本：训练数据中的每个样本。
训练集：训练样本组成的集合称为训练集。
假设：学得模型对应了关于数据的某种潜在的规律。
真相/真实：这种潜在规律自身称为真相或者真实。
学习器/模型：学习算法在给定数据和参数空间上的实例化。
预测模型：判断一个没破开的瓜是不是好瓜。
标记：对于每条示例给出一个结果，比如是好瓜。
样例：拥有了标记的示例称为样例。
标记空间/输出空间：一般用(xi,yi)来表示第i个样例，其中yi是标记，所有标记的集合则称为标记空间或者输出空间。
分类：想要预测的是离散值。好瓜还是坏瓜。
回归：若预测的是连续值，例如西瓜的成熟度是0.95等，这类学习任务称为回归。
测试：得到模型后，用于预测的过程称为测试。
测试样本/测试示例/测试例：用于测试的样本。
聚类：即将训练集中的西瓜分成若干组，每组称为一个簇(cluster),这些自动形成的簇可能对应一些潜在的概念划分。需要注意的是聚类的训练样本并不是拥有标记信息。
监督学习(supervised learning)：训练数据拥有标记信息。分类和回归是这一类的典型代表。
无监督学习(unsupervised learning)：训练数据不拥有标记信息。聚类是这类的典型代表。
泛化能力：学得模型适用于新样本的能力称为泛化能力，具有强泛化能力的模型很好的适用于整个样本空间。
独立同分布：通常假设样本空间全体样本服从一个未知分布D，每个样本都是独立同分布

假设空间

对于科学推理存在两种方式，归纳和演绎。归纳是特殊到一般的泛化过程，也就是从一般事务中得到规律。演绎则是用基础原理去推演一些具体情况。
归纳学习有狭义和广义之分，可以理解的广义归纳学习相当于从样例中学习。狭义归纳学习则从训练数据中学得概念，也称为概念学习。在概念学习中最为基本的是布尔概念学习，只有两个目标概念。
文中给出的具体描述可以理解为：一个学习过程看成是对一个假设空间的搜索，在假设空间中找到一个假设可以满足训练集中所有的要求，于是所需要的学习结果就有了。但是有时候这种假设不止一个，于是所有类似的假设构成一个“版本空间”。

归纳偏好

其实一个假设对应一个模型，在版本空间中，对于模型做选择，选哪种呢？
这里明确一下，“归纳偏好”有两种（书中的意思是给出两种，至于别的没说），其一：对于训练集的分析产生的特征选择，然后给出归纳偏好；其二：根据某种领域的知识积累而得出的归纳偏好。注意一个算法/模型必须有归纳偏好，通俗的讲归纳偏好也就是那种算法/模型更加适合，与解决的问题是否匹配。
那么对于归纳偏好是否有一般性的原则呢？
“奥卡姆剃刀”：若有多个假设与观察一致，则选择最简单的那个。但是很遗憾这个一般性原则往往并不是最合适的。
文中给出了一个证明：（缺少NFL定理证明部分）
给出讨论的结果也就是NFL(no free lunch theorem)：在所有问题出现机会相同的情况下，无论学习算法多好，或者多么糟糕，但是他们得到的期望值却是相同的。

发展历程

1950~1970，A.Newell 和H.Simon 的“逻辑理论家”程序证明了很多定理，因此获得1975年图灵奖。
1975~1994：E.A.Feigenbaum认为机器需要具有知识才能智能，于是人工智能进入“知识期”。其中DENDRAL专家系统作为第一台专家系统有Feigenbaum在1965年完成。因此Feigenbaum作为知识之父获得1994年的图灵奖。
1950：图灵测试文章中出现机器学习。
1950初：机器学习出现相关研究，其中A.Samuel的跳棋程序。
1955~1960：出现神经网络的“连接主义”，有F.Rosenblatt的感知机，B.Widrow的Adaline等作为代表作。
1960~1970：基于逻辑表示的“符号主义”发展起来，P.Winston的“结构学习系统”等
1960~1970：基于决策理论为基础的学习技术和强化学习技术也得到发展，比如N.J.Nilson的“学习机器”.
1990~：统计学习理论也开始发展起来。
上面给出了机器学习的大概兴起的方向和时间，下面则开始给出一些机器学习整体性的知识架构。
R.S.Michalski等人把机器学习分为四大类：
从样例中学习；在问题求解和规划中学习；通过观察和发现学习；从指令中学习。
E.A.Feigenbaum等人则将机器学习分为这四类：
归纳学习，机械学习，类比学习，示教学习。
两种分类法除了第二类均是不同，其余三类都是一一对应的类似。
NOTE：从样例中学习也就是广义归纳学习是这些年发展的最多的。
接下来对于归纳学习进行方向分类：
符号学习:决策树和基于逻辑的学习。
典型的决策树学习以信息论作为基础，以信息熵的最小化作为目标，直接模拟人类对概念进行判断的树形流程。简单。
基于逻辑的学习著名代表是归纳逻辑程序设计ILP(Inductive Logic Programming)，是机器学习和逻辑程序设计的交叉，通过一阶逻辑来对知识进行表示，修改和扩充逻辑表示式来完成对数据的归纳。缺点：假设空间太大，复杂度很高。
基于神经网络的连接主义学习：在1983年，J.J.Hopfield利用神经网络求解"流动推销员问题"取得进展。1986年D.E.Rumelhart等人发明了BP算法。缺点：缺乏理论，“黑箱模型”，手工调参。
统计学习：支持向量机(SVM)以及更一般的核方法。重要概念：支持向量，VC维，结构风险最小化原则。
深度学习：就是复杂的神经网络。对于语音和图像等复杂对象应用中比较优越。特点：需要数据量大，数据样本少容易过拟合。需要强力的计算设备。

TIAN_R

发布了2 篇原创文章 · 获赞 0 · 访问量 636

私信关注