给出一个机器学习问题，首先可以确定它是有监督（supervised） 问题还是无监督（unsupervised） 问题。

对于任何机器学习问题，我们都从一组样本（samples）组成的数据集开始。每个样本可以表示为一个属性（attributes）元组。
info
例如，有一个名为 Iris 的著名经典数据集，首次发表于 Ronald. A. Fisher 在 1936 年的论文 “The use of multiple measurements in taxonomic problems（可译作：多重测量在分类学问题中的使用）”。Iris 数据集包括对 150 个鸢尾花样本的测量。每个样本都包含其花瓣和萼片的长度和宽度的测量值，以及指示鸢尾花类别的属性，即山鸢尾、变色鸢尾和维吉尼亚鸢尾。以下是 Iris 数据集的一些示例

有监督学习

与有监督的学习任务相反，我们在无监督的学习任务中没有设置真值。人们期望从数据中学习潜在的模式或规则，而不以预先定义的真值作为基准。

人们可能会问，如果没有来自真值的监督，我们还能学到什么吗？答案是肯定的。以下是一些无监督学习任务的示例：

聚类（Clustering）：给定一个数据集，可以根据数据集中样本之间的相似性，将样本聚集成组。例如，样本可以是一个客户档案，具有诸如客户购买的商品数量、客户在购物网站上花费的时间等属性。根据这些属性的相似性，可以将客户档案分组。对于聚集的群体，可以针对每个群体设计特定的商业活动，这可能有助于吸引和留住客户。
关联（Association）：给定一个数据集，关联任务是发现样本属性之间隐藏的关联模式。例如，样本可以是客户的购物车，其中样本的每个属性都是商品。通过查看购物车，人们可能会发现，买啤酒的顾客通常也会买尿布，也就是说，购物车里的啤酒和尿布之间有很强的联系。有了这种学习而来的洞察力，超市可以将那些紧密相关的商品重新排列到相邻近的角落，以促进这一种或那一种商品的销售。

半监督学习

在数据集很大，但标记样本很少的情况下，可以找到同时具备有监督和无监督学习的应用。我们可以将这样的任务称为半监督学习（semi-supervised learning）。

在许多情况下，收集大量标记的数据是非常耗时和昂贵的，这通常需要人工进行操作。斯坦福大学的一个研究团队花了两年半的时间来策划著名的 “ImageNet”，它包含了数以百万计的图像带有成千上万个手动标记的类别。因此，更普遍的情况是，我们有大量的数据，但只有很少一部分被准确地 “标记”，例如视频可能没有类别甚至标题。

通过将有监督和无监督的学习结合在一个只有少量标记的数据集中，人们可以更好地利用数据集，并获得比单独应用它们更好的结果。

例如，人们想要预测图像的分类，但只对图像的 10% 进行了标记。通过有监督的学习，我们用有标记的数据训练一个模型，然后用该模型来预测未标记的数据，但是我们很难相信这个模型是足够普遍的，毕竟我们只用少量的数据就完成了学习。一种更好的策略是首先将图像聚类成组（无监督学习），然后对每个组分别应用有监督的学习算法。第一阶段的无监督学习可以帮助我们缩小学习的范围，第二阶段的有监督学习可以获得更好的精度。

有监督 VS. 无监督 *机器学习

有监督学习

半监督学习

猜你喜欢