无监督学习：从基本概念到四种实现模型

http://www.sohu.com/a/117638113_465975

这是今年 6 月份普渡大学副教授 Eugenio Culurciello 写的一篇关于无监督学习的概述性文章。除了基本概念，本文还介绍了无监督学习的四种实现模型：聚类学习、自动编码器、生成模型、PredNet。前几日，Culurciello 教授根据最近无监督学习的发展对此篇文章进行了更新与调整，机器之心对此进行了编译。文中提到的论文可点击「阅读原文」下载。

无监督学习可谓是深度学习的圣杯，其目标是建立可兼容小数据集进行训练的通用系统，即便是很少的数据。

如今深度学习模型往往在大型监督型数据集上训练。所谓监督型数据集，即每条数据都有一个对应的标签。比如流行的 ImageNet 数据集，有一百万张人为标记的图像。一共有 1000 个类，每个类有 1000 张图像。创建这样的数据集需要花费大量的精力，同时也需要很多的时间。现在想象创建一个有 1M 个类的数据集。试想一下，对有 100M 数据帧的视频数据集的每一帧进行分类。该任务量简直不可估量。

现在，回想一下你在小时候是如何进行学习的。是的，那时候会有人指导你，你的父母会告诉你这是一个「猫」，但是他们不会在你余生的每一分每一秒都告诉你这是一只「猫」！如今的监督学习也是这样：我一次一次地告诉你，什么是「猫」，也许高达 100 万次。然后你的深度学习模型就学会了。

理想情况下，我们希望有一个模型，它的表现与我们的大脑非常相似。只需少量的标签便可理解这个多类的世界。这里所说的类，主要是指对象类、动作类、环境类、对象组成类等等。

基本概念

无监督学习研究的主要目标是预训练一个模型（称作「识别」或「编码」）网络，供其他任务使用。编码特征通常能够用到分类任务中：例如在 ImageNet 上训练会表现出很好的结果，这与监督模型非常接近。（拿啥训练呀？？？）

迄今为止，监督模型总是比无监督的预训练模型表现的要好。其主要原因是监督模型对数据集的特性编码的更好。但如果模型运用到其他任务，监督工作是可以减少的。在这方面，希望达到的目标是无监督训练可以提供更一般的特征，用于学习并实现其它任务。

自动编码器（auto-encoders）（这到底是无监督还是有监督呀，

无监督学习：从基本概念到四种实现模型

猜你喜欢