机器学习西瓜书—第一章(学习笔记)

1.1  基本术语

一条记录是关于一个事件或者对象的描述,称为一个示例(instance)样本(sample)。

反映事件或对象在某方面的表现或性质的事项,称为属性(attribute)特征(feature)。

属性的取值称为属性值(attribute value)

属性张成的空间称为属性空间(attribute space)样本空间(sample space)输入空间。

空间中的每个点对应一个坐标向量,一个示例也称为一个特征向量(feature vector)。

从数据中学得模型的过程称为学习(learning)训练(training)

学得模型对应了关于数据的某种潜在规律,因此称为假设(hypothesis),潜在规律则称为真相真实(ground-truth)

关于示例结果的信息称为标记(lable),拥有了标记信息的示例,则称为样例(example)。

所有标记的集合称为标记空间(lable space)输出空间。

若预测的是离散值,此类学习任务称为分类(classfication)。若预测的是连续值,此类学习任务称为回归(regression)

学得模型后,使用其进行预测的过程称为测试(testing)。

将训练集中的样本分为若干组的过程,称为聚类(clustering),其中每一个组称为一个簇(cluster)

根据训练数据是否拥有标记信息,学习任务可大致分为监督学习(supervised learning)无监督学习(unsupervised learning)

学得模型适用于新样本的能力,称为泛化(generalization)能力。

1.2 假设空间

归纳(induction)是从特殊到一般的泛化过程,演绎(deduction)是从一般到特殊的特化(specialization)过程。

归纳学习(induction learning)有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念(concept),因此又称为概念学习概念形成。

学习过程可以看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配(fit)的假设。

可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,称之为版本空间(version space)

1.3 归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为 归纳偏好(inductive bias),或者简称为偏好

奥卡姆剃刀(Occam's razor)原则:若有多个假设与观察一致,则选择最简单的那个。

猜你喜欢

转载自blog.csdn.net/lijingyu1997/article/details/82150385