【CVPR2020 论文翻译】 | Explaining Knowledge Distillation by Quantifying the Knowledge

本篇基于有道翻译进行翻译的。为了自己阅读翻遍, 公式部分处理不太好。
论文原文链接:https://arxiv.org/abs/2003.03622

Abstract

本文提出了一种通过对深度神经网络中间层中与任务相关和任务无关的视觉概念进行量化和分析来解释知识蒸馏成功的方法。更具体地说,提出以下三个假设。

  1. 知识蒸馏使DNN比从原始数据中学习更多的视觉概念
  2. 知识蒸馏确保了DNN易于同时学习各种视觉概念。然而,在从原始数据学习的场景中,DNN顺序学习视觉概念
  3. 与从原始数据中学习相比,知识蒸馏可以产生更稳定的优化方向。因此,我们设计了三种类型的数学度量来评估DNN的特征表示。在实验中,我们对各种DNNs进行了诊断,并验证了上述假设。

1. Introduction

知识蒸馏[16]的成功已经在各种研究中得到证明[31,45,11]。它将知识从一个成熟的深度神经网络(DNN),即教师网络,转移到另一个DNN,即学生网络。然而,解释如何以及为什么知识蒸馏优于从原始数据学习仍然是一个挑战。

在这项工作中,我们的目标是从一个新的角度来分析知识蒸馏的成功,即量化编码在DNN中间层的知识。我们分别对通过知识蒸馏和从原始数据中学习的DNN中编码的知识的数量进行了量化和比较。这里,从原始数据中获得的DNN称为基线网络。在本研究中,将某一层的知识量测量为视觉概念的数量(如物体的尾部、头部等),如图1所示。这些视觉概念激活了这个特定层的特征图,并用于预测。

在这里插入图片描述

图1所示。通过量化视觉概念来解释知识的提炼。提出并验证了三个假设:1. 知识蒸馏使DNN学习更直观而不是从原始数据中学习。2. 知识蒸馏确保了DNN易于同时学习各种视觉概念。3.与从原始数据中学习相比,知识蒸馏可以产生更稳定的优化方向。

假设1: 知识蒸馏使DNN学习更多的视觉概念。在本文中,视觉概念被定义为一个图像区域,其信息的丢弃性显著降低,并且主要被DNN使用。我们将与任务相关的视觉概念与其他概念区分开来,即与任务无关的概念。对于实现,让我们以分类任务为例。如图1所示,前景中的视觉概念通常被认为与任务相关,而背景中的视觉概念则被认为与任务无关。

根据信息瓶颈理论[41,36],DNNs倾向于暴露与任务相关的视觉概念,而抛弃与任务无关的概念来学习区别性特征。与基线网络(从原始数据中学习)相比,训练有素的教师网络通常被认为编码了更多与任务相关的视觉概念和/或较少与任务无关的概念。因为学生网络模仿了教师网络的逻辑,所以学生网络应该包含更多与任务相关的视觉概念,而较少与任务无关的概念。

假设2: 知识蒸馏确保了DNN易于同时学习各种视觉概念。相比之下,基线网络倾向于顺序学习视觉概念,即在不同的epoch学习不同的概念。

假设3: 与从原始数据中学习相比,知识蒸馏通常会产生更稳定的优化方向。DNN在对原始数据进行学习时,通常会在早期尝试对各种视觉概念进行建模,然后在后期抛弃不加区分的概念[41,36],导致优化方向不稳定。本文将不同epoch的优化方向不一致现象简称为“迂回”。相比之下,在知识蒸馏过程中,教师网络直接引导学生网络瞄准视觉概念,没有明显的迂回。让我们以鸟类的分类为例。基线网络倾向于在早期从头部、腹部、尾部和树枝部位提取特征,而在后期从树枝部位丢弃特征。而学生网络则是直接从头部和腹部部位学习特征,少走弯路。

方法: 我们提出了三种数学度量方法来量化隐藏在DNN中间层中的视觉概念,并分析了视觉概念在学习过程中是如何被习得的。这些度量标准度量

  1. 视觉概念的数量。
  2. 不同概念的学习速度。
  3. 优化方向的稳定性。

我们使用这些指标来分析比较研究中的学生网络和基线网络,以证明三个假设。更具体地说,学生网络是通过知识蒸馏来学习的,而从原始数据中学习的基线网络被构造成具有与学生网络相同的体系结构。

注意,视觉概念应该在没有人工标注的情况下进行量化。主要有两个原因。1)人们不可能对世界上各种潜在的视觉概念进行注释。2)对于严谨的研究,人的注释的主观偏向不应该影响定量的度量。为此,[14,26]利用熵来量化编码在中间层中的视觉概念。

贡献: 我们的贡献可以总结如下。

  1. 我们提出一种方法来量化暗物质的概念,[42]编码在一个DNN的中间层。
  2. 基于视觉概念的量化,我们提出了三种度量方法,从编码在DNN中的知识表示的角度来诊断和解释知识蒸馏的优越性能。
  3. 提出并验证了关于知识蒸馏的三个假设,为解释知识蒸馏提供了依据。

2. Related Work

虽然深度神经网络在各种任务中表现出了优越的性能,但它们仍然被视为黑匣子。以往对DNNs的解释研究大致可归纳为语义解释和数学解释。

DNNs的语义解释: 一种直观的解释DNNs的方法是将编码在DNNs中间层的视觉概念可视化。特征可视化方法通常显示可能显著激活某一层特定神经元的概念。基于梯度的方法[47,37,46,27]使用输出的梯度w.r.t.输入图像来测量中间层激活单元或输入单元的重要性。基于反转的[5]方法将卷积层的特征映射转换为图像。从可视化结果来看,人们大致理解了编码在dna中间层的视觉概念。例如,低层次的过滤器通常编码简单的视觉概念,如边缘和纹理,而高层次的过滤器通常编码概念,如对象和模式。

其他方法通常估计输入图像的像素属性/重要性/显著性,测量每个输入像素对最终输出的影响[30,25,20,9]。一些方法利用中间层特征来探索输入图像的显著性,如CAM[52]、graden -CAM[34]和graden -CAM++[2]。Zhou等人计算了特征图中神经激活的实际图像分辨率接受域。

Bau等人使用人工注释将特征表示分解为语义概念。Fong和Vedaldi[8]证明了DNN使用多个过滤器(fliter)来表示一个特定的语义概念。Zhang等人使用解释图[48]和决策树[50]来表示CNNs中的层次组成部分表示。TCAV[19]测量了用户定义的概念对分类的重要性。

可解释人工智能的另一个方向是以无监督或弱监督的方式学习具有可解释特征表示的DNN。在胶囊网络[33]中,每个胶囊的活性编码了各种属性。可解释的CNN[49]学习对象部分特征,没有部分注释。InfoGAN[4]和β-VAE[15]学习可判断的factorised生成网络潜在的表示。

而在本研究中,中间层视觉概念的量化要求我们设计出具有一致性和通用性的度量。也就是说,与以前的研究不同,我们计算重要性/显著性/注意力[47,37,46,27]是基于启发式的假设,或者使用大量的人类注释的概念[1]来解释网络特征,我们使用输入的条件熵来量化视觉概念。熵是一种通用工具,与各种理论有很强的联系,如信息瓶颈理论[41,36]。此外,这种一致性还允许使用相同的度量标准来确保不同层次的DNN之间以及不同时代学习的DNN之间的公平比较。

DNNs表达能力的数学解释: 对DNNs表达能力的数学评价为解释提供了新的视角。信息瓶颈理论[41,36]利用相互信息来评价DNNs的表达能力[13,43]。提出了刚度[10]诊断神经网络泛化的方法。利用smart评分[40]估计神经网络的鲁棒性。应用傅里叶分析[44]解释了随机梯度下降学习神经网络的泛化。Novak等人研究了训练神经网络的敏感性与泛化之间的相关性。利用典型相关分析(CCA)[21]来测量神经网络表征之间的相似性。Chen等人提出了通过互信息进行实例特征选择的模型解释方法。Zhang等人研究了DNNs之间的知识一致性。

与以往的研究方法不同,我们的研究目的是在数学解释和语义解释之间架起一座桥梁。我们使用输入的熵来测量一个DNN中视觉概念的数量。此外,我们利用输入图像对背景和前景的视觉概念进行量化,探讨DNN是同时学习还是顺序学习各种概念,并分析优化方向的稳定性。

知识蒸馏:知识蒸馏是一种流行的、成功的知识转移技术。Hinton等人[16]认为“软目标”导致了知识精馏的优越性能。Furlanello等人[11]将教师传授给学生的黑暗知识解释为重要性加权。

从理论角度看,Lopez-Paz等人[24]将知识蒸馏解释为一种带有特权信息的学习形式。Phuong等人的[29]从数据分布、优化偏差和训练集大小的角度解释了知识提取的成功。

然而,就我们所知,对知识蒸馏的数学解释是罕见的。本文从一个新的角度对知识蒸馏进行了解释,即从数学的角度对知识蒸馏和单纯从原始数据获取的DNNs之间中间层编码的视觉概念进行量化、分析和比较。

3. Algorithm

在本节中,我们将得到一个预先训练好的DNN(即教师网络),然后将其提取为另一个DNN(即学生网络)。这样,我们的目的是比较和解释学生网络和从原始数据(即基线网络)中学习的DNN之间的区别。为了简化这个故事,我们将注意力限制在对象分类的任务上。令x∈Rn表示输入图像,fT (x), fS(x)∈RL分别表示教师网络及其对应学生网络的中间层特征。通过知识蒸馏迫使fS(x)逼近fT (x),教师和学生的分类结果分别为yT = gT (fT (x))和yS = gS(fS(x))∈Rc。我们比较基线网络和学生网络中编码的视觉概念,以解释知识的提炼。为了进行公平的比较,基线网络与学生网络具有相同的结构,实现细节如4.1节所示。

3.1. Preliminaries: Quantifification of Information iscarding

根据信息瓶颈理论[41,36],输入图像的信息通过层逐步丢弃。[14, 26]提出了一种对DNN特定中间层编码的输入信息进行量化的方法,即测量DNN提取该层特征时忽略了多少输入信息。根据中间层特性f = f(x),信息丢弃被表示为输入的条件熵H(X0),如下所示。

在这里插入图片描述

X’表示一组图像,它们对应于特定对象实例的概念。对象的概念被认为是由一个小范围的特征k (x’)) f∗k2≤τ,τ是小正的标量。假设x遵循一个先验知识。高斯分布,x’∼N (x,Σ=诊断接头(σ21,。σ2n)),σi控制扰动的大小在每个i像素。n表示输入图像的像素个数。这样,高斯分布的假设保证了整个图像的熵H(X’)可以分解为如下的像素级熵{Hi}。

在这里插入图片描述

当 Hi = log σi + 12 log(2πe) 其中度量像素级信息的丢弃。详见[14,26]。

3.2. Quantifification of visual concepts

假设1:知识的提炼使得DNN比从原始数据中学习更可靠的视觉概念。

在本节中,我们的目标是比较基线网络和学生网络中编码的视觉概念的数量,从而验证上述假设。

是否使用带注释的概念: 为了进行比较,我们尝试定义和量化编码在DNN中间层(学生网络或基线网络)中的视觉概念。注意,在本研究中,我们不研究由人工标注定义的视觉概念。例如,Bau等人[1]使用手动注释定义了对象、部件、纹理、场景、材料和颜色的视觉概念。然而,这项研究要求我们使用和量化的视觉概念没有明确的名称,无法准确地标记。这些视觉概念通常被称为“暗物质”[42]。

使用暗物质视觉概念代替传统语义视觉概念主要有两个原因。1. 语义视觉概念没有标准的定义,语义视觉概念的分类可能存在明显的偏差。2. 注释所有视觉概念的成本通常是无法承受的

度量: 本文从信息论的角度对暗物质视觉概念进行了量化。给定一个预先训练好的DNN、一组训练图像I和一个输入图像x∈I,让我们把重点放在像素级信息上,将Hi w.r.t作为中间层特征f*= f(x)。高像素熵{Hi}如式(2)所示,说明DNN忽略了这些像素的更多信息。而DNN主要利用低熵的像素{Hi}来计算特征f的被积函数。这样,低像素熵的图像区域可以被认为代表了相对有效的视觉概念。例如,图2中的鸟的头部和翅膀主要由DNN用于细粒度分类。因此,度量标准定义如下

在这里插入图片描述

其中N bgconcept(x)和Nfg concept(x)分别表示编码在背景和前景上的视觉概念数量。Λbg和Λfg像素集的输入图像的背景和前景w.r.t. x,分别。✶(·)指标函数里面的条件是有效的,✶(·)返回1,否则为0。H = Ei∈Λbg (Hi)表示平均熵值的背景、措施的意义信息丢弃w.r.t.背景像素。背景上的像素被认为代表了与任务无关的视觉概念。因此,我们可以用H作为基线熵。熵值显著小于H的图像区域可以被认为是有效的视觉概念,其中b是正的标量。度规λ是用来测量特性的辨别力。如图2所示,为了提高稳定性和效率的计算,{嗨}是16×16网格计算,即每个局部网格中所有像素共享相同的σi。图2中的深色表示低熵值Hi。

在这里插入图片描述

图2。视觉概念的可视化。第二列显示不同图像的{Hi}。低像素熵的图像区域被认为是视觉概念,如第三列所示。

在统计学中,前台的视觉概念通常是与任务相关的,而后台的视觉概念主要是与任务无关的。通过这种方式,一个博学的DNN应该在前景编码大量的视觉概念,在背景编码很少的视觉概念。因此,一个更大的λ值表示更有识别力的款。

一般性和一致性:度量的设计应该同时考虑一般性和一致性。概括性是指度规应该与现有的数学理论有很强的联系。这种一致性保证了在不同情况下的全面和公平的比较。在本文中,我们的目标是量化和比较不同网络架构和不同层之间的视觉概念的数量。如[14,26]所述,现有的DNNs解释方法通常依赖于特定的网络架构或特定的任务,如基于梯度的方法[47,37,46,27]、基于扰动的方法[9,20]和基于反转的方法[5]。与以前的方法不同,输入的条件熵确保了不同网络架构和不同层之间的公平比较,如表1所示。

在这里插入图片描述

3.3. Learning simultaneously or sequentially

假设2:知识蒸馏确保了DNN易于同时学习各种概念。而从原始数据中学习的DNN则是在不同的时代中依次学习概念。

在本节中,我们提出两个度量来证明假设2。给出一组训练图像I, g1, g2,…, gM表示不同时期学习的DNNs。这个DNN可以是学生网络,也可以是基线网络。最后一个历元之后得到的gM被认为是最终的DNN。对于每个具体的图像I∈I,我们将经过不同纪元的Nfg 1 (I), Nfg 2 (I),…,Nfg M (I)。

这样,DNN是否同时学习视觉概念可以从以下两个方面进行分析:nfg j (I)是否随epoch快速增加;2. 不同图像的nfg j (I)是否同时增大。第一项表示DNN是否能快速学习特定图像的各种视觉概念,第二项表示DNN是否能同时学习不同图像的视觉概念。

为了进行严格的评估,如图3所示,我们计算了epoch数m = arg maxk N fg k (I),其中DNN在前景中获得了最丰富的视觉概念。设w0和wk分别表示第k个epoch之后的初始参数和学习的参数。我们利用 公式,名叫“重量距离”,衡量学习效果在mˆth epoch[12、7]。与使用epoch数相比,权值距离更能量化每个历元k更新参数wk的总路径,因此,我们使用权值距离的平均值Dmean和标准差Dstd来量化一个DNN是否同时学习视觉概念。Dmean和Dstd如下

在这里插入图片描述
在这里插入图片描述

图3。前景视觉概念的学习过程,加权距离。根据信息瓶颈理论,DNN倾向于在早期阶段学习各种视觉概念,然后在后期主要抛弃与任务无关的概念。严格地说,DNN在整个过程中学习新概念,抛弃旧概念。我们可以考虑的学习阶段mˆ编码富有的概念。

Dmean表示平均权距离,其中DNN获得最丰富的任务相关视觉概念。Dmean的值表示DNN是否能快速学习视觉概念。Dstd描述了重量距离wr的变化。t为不同的图像,其值表示DNN是否同时学习不同的视觉概念。因此,较小的Dmean和Dstd值表明,DNN可以同时快速地学习各种概念。

3.4. Learning with Less Detours

假设3:知识蒸馏比从原始数据中学习得到更稳定的优化方向。

在知识蒸馏过程中,教师网络直接引导学生网络学习目标视觉概念,没有明显的迂回。相比之下,根据信息瓶颈理论[41,36],DNN在对原始数据进行学习时,往往会尝试对各种视觉概念进行建模,然后抛弃不加区分的概念,导致优化方向不稳定

为了量化DNN优化方向的稳定性,提出了一种新的度量方法。令S1(I) S2(I)。, SM(I)表示由g1、g2、…编码的图像前景上的一组视觉概念。分别,通用。其中,每个视觉概念a∈Sj (I)表示图像I前景上的一个特定像素I,该像素I满足H - Hi > b,优化方向的稳定性可测量如下:

在这里插入图片描述

分子反映了最终被选择用于对象分类的视觉概念的数量,如图4中的黑框所示。分母表示在学习过程中临时学到的视觉概念,如图4中的绿色方框所示。(SMj=1 Sj (I) \ SM(I))表示一组视觉概念,这些概念已经尝试过,但最终被DNN抛弃。ρ表示款的高价值优化detours1较少,更稳定;亦然。

在这里插入图片描述

分子反映了最终被选择用于对象分类的视觉概念的数量,如图4中的黑框所示。分母表示在学习过程中临时学到的视觉概念,如图4中的绿色方框所示。(SMj=1 Sj (I) \ SM(I))表示一组视觉概念,这些概念已经尝试过,但最终被DNN抛弃。高价值的ρ表示深度神经网络优化减少弯路,更稳定;亦然。

4. Experiment

4.1. Implementation Details

数据集和DNNs:我们设计了比较实验来验证三个提出的假设。为了综合比较,我们使用了AlexNet[22]、VGG-11、VGG-16、VGG-19[38]、ResNet-50、ResNet-101和ResNet-152[18]进行实验。将每个DNN作为教师网络,我们将知识从教师网络提取到学生网络,学生网络与教师网络具有相同的架构,以便进行公平的比较。同时,要求基线网络具有与教师网络相同的体系结构。

我们基于ILSVRC-2013 DET数据集[35]、CUB200-2011数据集[39]和Pascal VOC 2012数据集[6]训练这些DNNs。第4.3、4.4和4.5节中的所有教师网络都在ImageNet数据集[32]上进行了预训练,然后分别使用这三个数据集进行了微调。为了对ILSVRC-2013 DET数据集进行微调,考虑到计算量较大,我们进行了陆地哺乳动物分类的对比实验。对于ILSVRC-2013 DET数据集和Pascal VOC 2012数据集,使用了数据扩充[17]来防止过拟合。对于CUB200-2011数据集,我们使用由对象边界框裁剪的对象图像进行训练和测试。特别是对于Pascal VOC 2012数据集,为了得到稳定的结果,使用1.2 width×1.2 height of the original object bounds box对图像进行裁剪。对于ILSVRC-2013 DET数据集,我们使用原始对象边界框的1.5宽×1.5高裁剪每张图像。因为在ILSVRC-2013 DET数据集中不存在物体分割的ground-truth注释,所以我们使用物体边界框作为前景区域。像素内的对象边界框被视为前景Λfg和像素以外的对象边界框被称为背景Λbg。

蒸馏:在知识蒸馏过程中,我们选择了一个全连通(FC)层l作为目标层。以kfT (x)) fS(x)k2为蒸馏损失,模拟教师网络对应层的特征,其中fT (x)和fS(x)分别表示教师网络的l层特征和对应的学生网络的l层特征。

利用蒸馏损失,获得了目标FC层l下学生网络的参数。因此,除了教师网络中编码的知识外,额外的人工标注信息不会影响学习过程,从而保证了公平的比较。然后对目标层l下的参数进行冻结,仅利用分类损失对目标层l上的参数进行学习。

层的选择:对于每一对学生网络和基线网络,我们的目标是量化FC层中编码的视觉概念,并进行对比实验。我们发现这些被选择的dnns通常有三个FC层。为了简单起见,我们将三个FC层分别命名为FC1、FC2、FC3。注意,对于ILSVRC-2013 DET数据集和Pascal VOC 2012数据集,编码在FC3层的中间层特征的维数要比编码在FC1层和FC2层的特征维数小得多。因此,在ILSVRC-2013 DET数据集和Pascal VOC 2012数据集上学习DNNs时,从FC1和FC2层中选择目标层。对于CUB200-2011数据集,所有三个FC层都被选择为目标层。注意,ResNets通常只有一个FC层。通过这种方式,我们用两个卷积层和三个FC层将唯一的FC层替换为一个块,每个层后面都有一个ReLU层。因此,我们可以测量视觉概念在学生网络和基线网络w.r.t每个FC层。对于超参数b(如式(3)所示),对于AlexNet设置为0.25,对于其他DNNs设置为0.2。这是因为AlexNet比其他dnns的层次要少得多。

4.2. Quantifification of Visual Concepts in the Teacher Network, the Student Network and the Baseline Network

根据我们的假设,教师网络是从大量的训练数据中学习的。因此,教师网络学习到更好的表现,即编码更多的视觉概念在前景和较少的概念在背景比基线网络。因此,向老师学习的学生网络应该比基线网络包含更多的前景视觉概念。在本节中,我们的目标是比较编码在教师网络、学生网络和基线网络中的视觉概念的数量。

在ILSVRC-2013 DET数据集和CUB200 2011数据集上,我们从零开始学习了一个教师网络。为了提高教师网络的性能,使用了数据扩充[17]。学生网络以4.1节相同的方式提取,其架构与教师网络和基线网络相同。在不失一般性的情况下,选择VGG 16,结果见表2。我们发现的数量概念前台N fg concept和老师比λ的网络比学生大网络。与此同时,学生网络获得N fg concept和λ的值比基线网络。这样,就大致验证了教师网络、学生网络和基线网络之间的假设关系。我们也注意到有一个例外,教师网络的nfg概念值小于学生网络。这是因为教师网络的平均背景熵值H(式(3))大于学生网络。

4.3. Verifification of Hypothesis 1

假设1假设通过知识蒸馏,保证了学生网络学习更多与任务相关的视觉概念,学习较少与任务无关的视觉概念。因此,我们利用N fg concept ,bg concept和λ指标在方程(3)来验证这个假设。

值N fg concept,bg concept和λ,评估在每个款的FC1和FC2层学习使用cub200 - 2011数据集,ilsvrc - 2013数据集和帕斯卡VOC 2012数据集,表3所示。大部分结果证实了假设1。即学生网络倾向于更多的视觉编码概念的前景和更少的概念背景,从而表现出更大的比率比基线网络λ。图5显示了编码在VGG-11的FC1层的视觉概念,这也证明了假设1。请注意,很少有学生网络编码更多的背景视觉概念N bg概念。这是因为在第4.3、4.4、4.5节中,将作为教师网络的DNNs预先训练在ImageNet数据集上,以验证假设1-3。预先训练的教师网络编码了1000个类别的视觉概念,这远远超出了需要。这将使学生网络表现出比基线网络更大的N bg concept值。

在这里插入图片描述

4.4. Verifification of Hypothesis 2

对于假设2,我们的目的是验证知识蒸馏使得学生网络具有更高的学习速度,即同时学习不同的概念。我们用Dmean和Dstd来证明这个假设。

由表3可知,学生网络的Dmean和Dstd值均小于基线网络,验证了假设2。请注意,仍然存在失败案例。例如,在AlexNet的FC1层或VGG-11的FC2层测量Dmean和Dstd。原因是AlexNet和VGG-11都有相对较浅的网络架构。在学习原始数据时,浅架构的DNNs会学习更多的概念,避免过拟合。然而,除了极少数例外情况外,大多数DNNs的知识提取优于从原始数据中学习。

在这里插入图片描述

表3。学生网络(S)与基线网络(B)比较,↑/↓表示值越大/越小越好。一般来说,N fg的学生网络更大的价值概念,λ,ρ,和小N bg值概念,Dmean,比基线网络Dstd,这证明了假设1 - 3。

4.5. Verifification of Hypothesis 3

假设3旨在证明,与基线网络相比,知识蒸馏使得学生网络在更少绕路的情况下得到优化1。度规ρ描绘稳定性的优化方向和被用来验证以上假设。结果报道在表3表明,在大多数情况下,学生的ρ值网络比基线网络。当我们测量ρAlexNet和VGG-11失败病例出现由于浅这两个网络的体系结构。因此,学生网络的优化方向往往是不稳定的,需要走更多的弯路1。

5. Conclusion and Discussions

本文从对DNN中间层编码的知识进行量化的角度来解释知识蒸馏的成功。提出了三种类型的度量标准来验证分类场景中的三种假设。也就是说,相对于从原始数据中学习,知识蒸馏可以确保DNNs学习更多与任务相关的概念,学习较少与任务相关的概念,具有更高的学习速度,并以更少的弯路进行优化。

我们的工作有几个局限性。本文只关注分类任务。然而,将我们的方法应用于其他任务(如对象分割)或其他类型的数据(如视频)在理论上是可行的。同时,对于这些任务,可能需要侧信息。在本文中,我们所提出的度量是通过基于熵的分析来实现的,该分析与信息瓶颈理论有着很强的联系。与信息瓶颈理论不同,所提出的度量方法可以度量像素级的丢弃。然而,DNNs的学习过程不能准确地分为学习阶段和丢弃阶段。在每个时代,DNN可以同时学习新的视觉概念和抛弃旧的与任务无关的概念。因此,图3中的目标时代mˆ只是一个粗略的估计两个学习阶段的划分。

Acknowledgements

析与信息瓶颈理论有着很强的联系。与信息瓶颈理论不同,所提出的度量方法可以度量像素级的丢弃。然而,DNNs的学习过程不能准确地分为学习阶段和丢弃阶段。在每个时代,DNN可以同时学习新的视觉概念和抛弃旧的与任务无关的概念。因此,图3中的目标时代mˆ只是一个粗略的估计两个学习阶段的划分。

Acknowledgements

通讯作者张全石就职于上海交通大学约翰·霍普克罗夫特中心和人工智能人工智能研究所教育部重点实验室。他感谢中国国家自然科学基金(U19B2043和61906120)和华为技术有限公司的支持。饶哲凡和陈宜兰作为上海交通大学的实习生对这项工作做出了同样的贡献。

发布了79 篇原创文章 · 获赞 95 · 访问量 8万+

猜你喜欢

转载自blog.csdn.net/qq_43058685/article/details/105316723
今日推荐