机器学习笔记 | 1.2 基本术语

数据集 (data set): 数据的集合

示例(instance)、 样本(sample): 数据集中的每条记录,用于描述某一事件或对象,就是示例

特征(feature)、属性(attribute):反应事件或对象在某一方面的表现或性质的事项,其值为特征值(属性值)

属性空间、样本空间或输入空间: 属性张成的空间

我们把一个示例称为一个特征向量(feature vector)

D={X1,X2,X3...Xm} 表示包含m个示例的数据集

样本x有d个属性,则d称为样本x的'维数'

学习(learing)、训练(training) : 从数据中学的模型的过程,这个过程通常是使用某个算法来完成的。

训练集(training set): 训练过程中使用的数据,其中每一个样本称为训练样本(training sample)

学得模型对应了关于数据潜在的某种规律,称为假设(hypothesis),这种潜在规律自身,称为真相或真实

标记(label):关于实例的结果信息,拥有标记信息的示例,称为样例(example)

分类(classifcation):预测的是离散值

回归(regression):预测的是连续值

涉及两个类别的分类,就是二分类(binary classifcation)

涉及多个类别的分类,就是多分类(multi-class classifcation)

测试(testing): 学得模型后,使用其进行预测的过程

测试样本(testing sample):被用来预测的样本

 泛化(generalization)能力:学得模型适用于新样本的能力

猜你喜欢

转载自www.cnblogs.com/qiutenglong/p/10969196.html
1.2