我们在学习任何学科的初期,都需要对该学科的一些术语有一定的了解,这样方面我们后期的学习和理解复杂的内容。今天学习一下机械学习的基本术语。
假设通过记录的方式得到下表数据:
标签 |
颜色 |
根蒂 |
敲击声 |
成熟度/未成熟 |
1 |
青绿色 |
卷缩 |
浊响 |
未成熟 |
2 |
乌黑色 |
稍卷 |
沉闷 |
未成熟 |
3 |
浅白色 |
硬挺 |
清脆 |
成熟 |
4 |
青绿色 |
硬挺 |
沉闷 |
未成熟 |
数据集/样本集:整个数据的集合,也就是所有数据整体。
实例/样本:记录一个事件或者对象的描述,例如表中的每一行。
样本属性/特征:主要反映事件或对象在某方面的表现或者性质的事项,比如表中中“颜色”等。
样本属性值/特征值:属性/特征所取到的值,比如表中的“青绿”等。
样本空间:由属性张成的空间,比如把“颜色”,“根蒂”,“敲击声”作为三个坐标轴的三维空间,每个西瓜就会在该空间内对应着一个位置。
特征向量:在样本空间中,每个点都对应一个坐标向量。
维度:对应表中的某一行的数据,如表中“颜色”,“根蒂”,“敲击声”3个属性进行取值记录,则可认为该样本的维度为3。
学习/训练:从数据模型中的学习过程。
训练数据:训练过程中使用的数据。
训练样本:训练过程中的每一个样本。
标签:表示样本的结果信息,如“成熟”,“未成熟”。
样例:指既包括样本属性值,又包含标签的样本。
输出空间:所有标记结果的集合。
预测:根据已有的众多样例,判断某一样本的输出结果。
分类:当结果预测值为离散值时,如表中的“成熟”,“未成熟”,此类任务分为分类。
回归:当结果预测值为连续值时,如预测西瓜的成熟度。
测试:通过学习得到的模型后,使用样本进行检测的过程。
测试样本:用于进行检测的样本。
新样本:没有用于模型训练的样本都可认为是对该模型的新样本。
泛化:指训练的模型不仅适用于训练样本,同时适用于新样本。