西瓜笔记(一)

一、几个基本术语的解释

数据集(data set):(色泽=青绿;根蒂=蜷缩;敲声=浊响)像这样的记录的集合就称作一个“数据集”。

属性(attribute):色泽,根蒂,敲声等被称为属性。

属性值(attribute value):青绿,蜷缩,浊响等被称为属性值。

特征向量(feature vector):(青绿,蜷缩,浊响)就可以被称为一个特征向量。

标记(label):我们需获得训练样本的“结果”信息。例如“好瓜”。

二、学习任务

1、离散值:我们预测的是“好瓜”或者“坏瓜”。此类学习任务是“分类(classification)”。

2、连续值:我们预测的例如是西瓜的成熟度0.75,0.84等。此类学习任务是“回归(regression)”。

一般的,预测任务是通过(x1,y1),(x2,y2)等训练数据建立一个从X->Y的的任务。

3、聚类(clustering):与上述问题不同的地方在于不需要标记。自动形成的簇可以对应一些潜在的概念,有助于我们了解数据内在的规律。例如“深色瓜”,“本地瓜”等。

扫描二维码关注公众号,回复: 3231005 查看本文章

根据有无标记信息分为有监督学习(supervised learning)无监督学习(unsupervised learning)

我们的目标是使学得的模型适用于新样本。称为“泛化(generalization)”能力。

我们的每个样本都是独立的从这个分布上采样获得的,即“独立同分布”。

我们可以把学习过程看作一个在假设(hypothesis)组成的空间中进行搜索的过程。搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。

但是,通常我们会得到一个很大的假设空间,在进行以上过程后仍会出现几个满足训练集的假设,这样的假设的集合就是版本空间。

三、No free lunch theorem

根据数学推导,所有的算法得到的结果理论上没有任何区别(误差与算法无关)。因此,往往归纳偏好就成为决定算法效果的重要因素。

猜你喜欢

转载自www.cnblogs.com/melina-zh/p/9658491.html