西瓜书：第一章绪论

1.1 基本术语
假定我们收集了一批关于西瓜的数据，例如：
(色泽=青绿;根蒂=蜷缩;敲声=浊响)，
(色泽=乌黑;根蒂:稍蜷;敲声=沉闷)，
(色泽=浅自;根蒂t硬挺;敲声=清脆)，
……，

每对括号内是一条记录，

上述记录的集合称为一个“数据集”（data set）；
每条记录时关于一个事件或对象（这里指西瓜）的描述，称为一个“示例”（instance）或“样本”（sample）；
反映事件或对象在某方面的表现或性质的事项，称为“属性”（attribute）或“特征”（feature）;例，“色泽”，“根蒂”
属性的取值称为”属性值“（attribute value），例，“青绿”、“乌黑”；
属性张成的空间称为“属性空间”（attribute space）、“样本空间”(sample space)或“输入空间”。例如，把“色泽”、“根蒂”、“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可在这个空间中找到自己的坐标位置；
由于空间中每个点对应一个坐标向量，因此也把一个示例称为一个“特征向量”（feature vector）；
拥有了标记信息的示例，称为“样例”（example）；

如果预测的是离散值，此类学习任务称为“分类”（classification），例如“好瓜”、“坏瓜”；

如果预测的是连续值，此类学习任务称为“回归”（regression），例如西瓜成熟度0.95、0.37；

也可以对西瓜做“聚类”（clustering），即将训练集中的西瓜分成若干组，每组称为一个“簇”（cluster）；这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜”，“深色瓜”。这样的学习过程有助于我们了解数据内在规律，能够为更深入地分析数据建立基础。注意一点，聚类学习中，“浅色瓜”，“深色瓜”这些概念事先是不知道的，而且学习过程中使用的训练样本通常无标记信息。当然也有例外情况。

根据训练数据是否有标记信息，学习任务可大致分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning），分类和回归是前者的代表，聚类是后者的代表。

学得到模型适用于新样本的能力，称为“泛化”（generalization）能力，具有强泛化能力的模型能很好地适用于整个样本空间。

loveysuxin

发布了70 篇原创文章 · 获赞 29 · 访问量 4万+

私信关注

西瓜书：第一章 绪论

猜你喜欢

西瓜书：第一章绪论