ML-基本概念

基本术语

假如有一堆各种颜色,各种大小的西瓜,这样带有各种属性(不同的颜色,不同的大小)的西瓜组成的集合称为数据集(data set)
这个集合里面,每一个西瓜称为实例(instance)样本(sample)
西瓜的颜色,大小等这些反应对象或事件在某方面表现或性质的事项,称为属性特征
有属性就得有属性值,青绿色、黄色、10KG等这些称为属性值
属性张成的空间,成为属性空间

例如,我们可以把颜色,大小,声响作为三个坐标轴,可以张成一个三维空间,每个西瓜都可以在这个空间里找到自己的坐标位置

由于一个坐标对应一个示例或样本的坐标向量,因此可以把一个示例成为一个特征向量

一般,令D={x1,x2,x3...xm} 表示包含m个示例的数据集,每个示例(样本)由d个属性描述,则每个示例xi=(xi1;xi2;xi3...xid) 是d维样本空间X中的一个向量,xi ∈ X,其中xij是xi</>在第j个属性上的取值,d称谓样本xi维数

关于示例结果的信息,称为标记(label),如西瓜 有好瓜,孬瓜;
拥有标记信息的示例,则称为样例(example)
一般地,用(xi,yi) 表示第i个样例,其中yi是示例i的标记,yi ∈ Y 的所有标记的集合,称为 标记空间

如果我们预测的是离散值,也成标称型,例如 好瓜,孬瓜,此类的学习任务称为 分类
如果我们预测额是连续值,又称数值型,例如重量1kg,2kg,5kg等,此类的学习任务为 回归
将数据集合分成由类似的对象组成的多个组,每组称为,此类的学习任务为聚类

根据训练的数据是否拥有标记信息,可以分为 监督学习无监督学习分类回归主要用于监督学习,而无监督学习则使用聚类

猜你喜欢

转载自www.cnblogs.com/hitechr/p/10342138.html