西瓜笔记(一)

一、几个基本术语的解释

数据集（data set）：（色泽=青绿；根蒂=蜷缩；敲声=浊响）像这样的记录的集合就称作一个“数据集”。

属性（attribute）：色泽，根蒂，敲声等被称为属性。

属性值（attribute value）：青绿，蜷缩，浊响等被称为属性值。

特征向量（feature vector）：（青绿，蜷缩，浊响）就可以被称为一个特征向量。

标记（label）：我们需获得训练样本的“结果”信息。例如“好瓜”。

二、学习任务

1、离散值：我们预测的是“好瓜”或者“坏瓜”。此类学习任务是“分类（classification）”。

2、连续值：我们预测的例如是西瓜的成熟度0.75，0.84等。此类学习任务是“回归（regression）”。

一般的，预测任务是通过（x1,y1）,（x2,y2）等训练数据建立一个从X->Y的的任务。

3、聚类（clustering）：与上述问题不同的地方在于不需要标记。自动形成的簇可以对应一些潜在的概念，有助于我们了解数据内在的规律。例如“深色瓜”，“本地瓜”等。

扫描二维码关注公众号，回复： 3231005 查看本文章

根据有无标记信息分为有监督学习（supervised learning）和无监督学习（unsupervised learning）。

我们的目标是使学得的模型适用于新样本。称为“泛化（generalization）”能力。

我们的每个样本都是独立的从这个分布上采样获得的，即“独立同分布”。

我们可以把学习过程看作一个在假设（hypothesis）组成的空间中进行搜索的过程。搜索过程中可以不断删除与正例不一致的假设、和（或）与反例一致的假设。最终将会获得与训练集一致（即对所有训练样本能够进行正确判断）的假设，这就是我们学得的结果。

但是，通常我们会得到一个很大的假设空间，在进行以上过程后仍会出现几个满足训练集的假设，这样的假设的集合就是版本空间。

三、No free lunch theorem

根据数学推导，所有的算法得到的结果理论上没有任何区别（误差与算法无关）。因此，往往归纳偏好就成为决定算法效果的重要因素。