信息论为机器学习带来了惊喜

信息论为机器学习带来了惊喜

一项新的研究对机器学习算法如何“思考”特定任务的流行概念提出了挑战。

这个概念是这样的:因为它们能够丢弃无用的信息,一类被称为深度神经网络的机器学习算法可以从原始数据中学习一般的概念——比如在不同的情况下,在遇到成千上万张不同的猫的图像后,通常可以识别猫。这种看似人类的能力据说是网络分层结构的副产品。早期层编码“cat”标签以及预测所需的所有原始信息。随后的层压缩信息,就像通过瓶颈一样。不相关的数据,比如猫的外套的颜色,或者旁边的牛奶碟,都被遗忘了,只留下了一般的特征。信息论在平衡压缩和预测这两种相互竞争的需求方面,为每一层的优化程度提供了界限。

“很多时候,当你有一个神经网络,它学会面临映射到名称或图片数字或神奇的事情像法语文本英语文本,它有很多信息流经的中间隐藏层,“Artemy Kolchinsky说,SFI博士后和研究的第一作者。“因此,长期以来人们一直认为,当原始输入被转换成这些中间表示形式时,系统就会用预测来交换压缩,并通过这种信息瓶颈来构建更高层次的概念。”

然而,Kolchinsky和他的合作者丹特蕾西(SFI,麻省理工学院)和Steven Van Kuyk(惠灵顿大学)发现了一个令人惊讶的弱点这个解释适用于常见的分类问题时,每个输入都有一个正确的输出(例如,每个图片可以是一只猫或一只狗)。在这种情况下,他们发现具有许多层的分类器通常不会放弃对改进压缩的一些预测。他们还发现有许多输入的“琐碎”表示,从信息论的观点来看,它们在预测和压缩之间的平衡是最优的。“我们发现,这种信息瓶颈衡量方法不像你我那样看待压缩。如果可以选择的话,把“马提尼酒杯”和“拉布拉多犬”混在一起,就像把它们和“香槟酒杯”混在一起一样快乐。“这意味着我们应该继续寻找更符合我们的压缩概念的压缩度量。”

虽然压缩输入的思想在机器学习中仍然发挥着重要的作用,但这项研究表明,这对于评估不同机器学习算法使用的内部表示是不够的。与此同时,Kolchinsky说,压缩和预测之间的权衡的概念仍然适用于不太确定的任务,比如从一个嘈杂的数据集预测天气。Kolchinsky强调:“我们并不是说信息瓶颈对有监督的(机器)学习是无用的。”“我们在这里展示的是,它在许多常见的机器学习问题上的表现与直觉相反,这是机器学习社区的人应该意识到的。”

猜你喜欢

转载自blog.csdn.net/weixin_33790053/article/details/86939547