西瓜书:第一章 绪论

1.1 基本术语
假定我们收集了一批关于西瓜的数据,例如:
(色泽=青绿;根蒂=蜷缩;敲声=浊响),
(色泽=乌黑;根蒂:稍蜷;敲声=沉闷),
(色泽=浅自;根蒂t硬挺;敲声=清脆),
……,

每对括号内是一条记录,

  • 上述记录的集合称为一个“数据集”(data set);

  • 每条记录时关于一个事件或对象(这里指西瓜)的描述,称为一个“示例”(instance)或“样本”(sample);

  • 反映事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature);例,“色泽”,“根蒂”

  • 属性的取值称为”属性值“(attribute value),例,“青绿”、“乌黑”;

  • 属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。例如,把“色泽”、“根蒂”、“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置;

  • 由于空间中每个点对应一个坐标向量,因此也把一个示例称为一个“特征向量”(feature vector);

  • 拥有了标记信息的示例,称为“样例”(example);

如果预测的是离散值,此类学习任务称为“分类”(classification),例如“好瓜”、“坏瓜”;

如果预测的是连续值,此类学习任务称为“回归”(regression),例如西瓜成熟度0.95、0.37;

也可以对西瓜做“聚类”(clustering),即将训练集中的西瓜分成若干组,每组称为一个“”(cluster);这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”,“深色瓜”。这样的学习过程有助于我们了解数据内在规律,能够为更深入地分析数据建立基础。注意一点,聚类学习中,“浅色瓜”,“深色瓜”这些概念事先是不知道的,而且学习过程中使用的训练样本通常无标记信息。当然也有例外情况。

根据训练数据是否有标记信息,学习任务可大致分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,聚类是后者的代表

学得到模型适用于新样本的能力,称为“泛化”(generalization)能力,具有强泛化能力的模型能很好地适用于整个样本空间。

发布了70 篇原创文章 · 获赞 29 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/LOVEYSUXIN/article/details/104055142