PA&DA : Jointly Sampling PAth and DAta for Consistent NAS

CVPR 2023 | PA&DA:联合优化路径和数据采样来提升NAS超网一致性

在这里插入图片描述

论文 : https://arxiv.org/abs/2302.14772
项目 : https://github.com/ShunLu91/PA-DA

Abstract

基于权值共享机制,One-shot NAS方法训练一个超级网络,然后继承预训练的权值来评估子模型,大大降低了搜索成本。然而,已有研究指出,在训练过程中,共享权值受到不同梯度下降方向的影响。我们进一步发现,在超级网络训练过程中会出现较大的梯度方差,这降低了超级网络排名的一致性。为了解决这个问题,我们提出通过联合优化PAth和DAta的采样分布(PA&DA)来显式地最小化超级网络训练的梯度方差。从理论上推导了梯度方差与采样分布之间的关系,揭示了最优采样概率与路径和训练数据的归一化梯度范数成正比。因此,我们使用归一化梯度范数作为路径和训练数据的重要指标,并采用重要采样策略进行超级网络训练。我们的方法在优化路径和数据的采样分布时只需要可以忽略不计的计算成本,但在超级网络训练过程中实现了更小的梯度方差和更好的超级网络泛化性能,从而获得更一致的NAS。我们在不同的搜索空间与其他改进的方法进行了全面的比较。结果表明,该方法的排序性能更可靠,搜索架构的准确率更高,证明了该方法的有效性。

1. Introduction

神经架构搜索(NAS)旨在实现结构设计过程的自动化。传统的NAS方法[2,58]分别训练每个子模型以指导控制器获得更好的体系结构,因此要求过高的计算复杂度。ENAS[33]探索了跨子模型的权值共享机制,One-Shot NAS[3]进一步提出训练一个超级网络来共享预训练的子模型权值,以达到更高的效率。后来,许多后续[7,18,31,49]采用这种方式来执行NAS。

虽然权值共享机制大大提高了NAS效率,但许多研究[19,20,41,50,52,55,57]指出,在不同子模型中,共享权值的梯度下降方向不同,导致梯度方差大,排序一致性差。为了缓解这一问题,他们[20,41,55,57]建议维持超级网络权重的多个副本以降低权重共享程度,手动制定更好的路径采样策略[7,50],或者引入额外的损失正则化[19,50,52]。然而,它们通常需要多重计算负担来进行超级网络训练,并且获得的结果并不令人满意,这促使我们探索更好的解决方案。

注意,大量的研究[12,17,22,35,37,39]致力于减少随机梯度下降(SGD)的方差,以最小化有限和。许多研究[1,5,16,23,25,45,54]侧重于优化数据采样分布,以减少训练深度模型的梯度方差。这些方法通常具有更快的收敛速度和更好的泛化性能,激励我们从梯度方差缩减的角度改进超级网络的训练。

我们使用CIFAR-10在NAS-Bench-201[15]上进行了一个小实验,以研究权重共享超级网络在训练期间的梯度方差。我们采用SPOS[18]算法对超级网络进行训练,并逐步增加超级网络每条边缘上的候选操作来改变权重分担程度。我们在训练过程中记录所有候选操作权值的平均梯度方差,并通过测量相同的 64 个子模型的排名结果(对应于 6 条边上有 2 个候选操作的最小搜索空间)评估超级网络的性能。如图1(a)所示,从超级网络中共享权重的子模型越多,梯度方差越大,排序一致性越差。这些结果表明,训练过程中较大的梯度方差会损害超级网络排名的一致性,这促使我们减小梯度方差以提高超级网络的性能。

在这里插入图片描述

在本文中,我们的目标是在训练过程中减少超级网络的梯度方差,以提高收敛速度和泛化性能。我们建议在超级网络训练过程中共同优化路径和数据采样分布来实现这一目标。我们从理论上推导了超级网络梯度方差与采样分布之间的关系,然后分别通过优化路径和数据采样分布来显式地最小化梯度方差。我们发现最优采样概率与路径和训练数据的归一化梯度范数成正比。因此,我们使用归一化梯度范数作为重要指标,并在超级网络训练过程中对路径和数据采用重要采样策略。如图1(b)所示,通过我们提出的路径重要性采样(PA)和数据重要性采样(DA),我们可以减小超级网络梯度方差,提高其排序一致性。

总体而言,我们的贡献如下:

  • 我们验证了超级网络训练的权重共享机制会导致大的梯度方差,损害超级网络的性能并降低其排名一致性。
  • 通过推导超级网络梯度方差与采样分布之间的关系,我们提出在超级网络训练过程中通过联合优化路径和数据采样分布来显式地最小化梯度方差。我们发现最优采样概率与路径和数据的归一化梯度范数成正比,并在超级网络训练中对它们采用重要采样。
  • 我们的方法只需要忽略不计的计算来执行路径和数据的重要性采样,并且不需要繁琐的超参数调优。我们在NAS-Bench-201上获得了最高的Kendall 's Tau[38] 0.713,并在DARTS和ProxylessNAS搜索空间上取得了优异的性能。

2. Related Work

2.1. One-Shot 神经架构搜索

One-Shot NAS[3]提出使用路径放弃技术训练超级网络,然后通过将预训练的超级网络权值继承给子模型进行架构搜索,以便快速评估。后续工作大致可分为基于梯度的方法[31,49]和基于抽样的方法[8,18]。基于梯度的方法将体系结构参数松弛为连续的,并利用梯度下降法对体系结构参数和超网络权值进行联合优化,但这种方法需要大量的内存开销,而且往往存在不稳定性。而基于采样的方法通过采样不同的路径(即子模型)来训练超级网络权值,并且在每个训练步骤中只优化一条路径,在实践中更加高效和鲁棒。例如,广泛使用的SPOS[18]算法在超级网络训练过程中采用统一的采样策略对路径和训练数据进行采样。在这项工作中,我们专注于基于采样的One-shot NAS方法,并利用SPOS作为我们的基线。

2.2. 改进的基于采样的One-Shot NAS

为了增强One-Shot NAS的一致性,一些研究[20,41,55,57]保留了多个超级网络权值副本,以降低权值共享程度。他们专注于如何分割超级网络以及如何为采样子模型选择适当的权重,这再次使超级网络训练复杂化。许多工作试图寻求更合理的梯度方向,以便更好的收敛。NSAS[52]利用损失正则化来防止其他子模型的性能下降,SUMNAS[19]在超级网络训练过程中计算爬行动物梯度。这两种方法都是由多模型遗忘驱动的,在训练过程中需要多次计算。其他工作手动详细阐述了一个更好的路径采样策略来处理这个问题。FairNAS[8]在不替换的情况下对候选操作进行采样和训练,并累积梯度,直到所有的梯度都被激活,确保了严格的公平性有利于超网训练。MAGIC-AT[50]通过在连续采样路径上只替换一个候选操作并使用对齐损失进行超级网络训练来增加采样架构之间的梯度相似性。它们需要大量的人力经验和更多的计算资源。在这项工作中,我们根据归一化梯度范数优化路径和数据的采样分布,从而在不需要复杂的人工设计的情况下保持了one-shot NAS的效率和一致性。

2.3. 减少方差

许多方法[12,17,22,35,37,39]通过减小SGD的方差来实现经验风险最小化问题的线性收敛。与普通SGD相比,它们具有更快的收敛速度和更好的泛化性能。其他研究[1、5、16、23、25、45、54]优化了训练过程中的数据抽样分布,以减小随机梯度方差。他们[32,54]得出了一个明确的关系,即最优抽样分布与每样本梯度范数成正比,并对训练数据使用了重要抽样[9,21,23,25]。由于常见的深度学习框架只提供小批量的平均梯度,因此计算样本梯度范数的成本非常高。为了解决这个问题,[16]利用边信息对每个类而不是每个样本的抽样分布进行建模,[25]有效地逼近了每个样本梯度范数的上界。我们的工作受到这些方法的激励。不同的是,我们专注于使用归一化梯度范数对超级网络训练的不同路径进行采样,这可以在小批量中有效地获得。此外,在超网络优化过程中,我们利用[25]的近似对训练数据进行重要采样。

3. Method

3.1. 基于采样的One-Shot NAS

One-Shot NAS[3,33]由于其高效和简单,最近已成为主流。特别是,基于采样的One-Shot NAS方法[7,18]在搜索高性能架构方面表现出了卓越的性能。这些方法一般有两个阶段,即超级网络训练和子模型搜索。

首先,通过对整个搜索空间 A \mathcal{A} A进行编码,构建一个权值为 W \mathcal{W} W的超级网络 N \mathcal{N} N。在训练过程中,根据离散分布 p ( α ) p(\alpha) p(α)对子模型 α \alpha α进行采样,每一步只训练采样子模型中包含的权值 W α \mathcal{W}_\alpha Wα。我们的目标是获得最优的超级网络权重 W ∗ \mathcal{W}^* W以训练损失为 L \mathcal{L} L,对被采样子模型进行迭代采样和训练,
W ⋆ = argmin ⁡ W E α ∼ p ( A ) , ( x , y ) ∼ q ( D T ) [ L ( N ( x , α ; W α ) , y ) ] (1) \mathcal{W}^{\star}=\operatorname*{argmin}_{\mathcal{W}}\mathbb{E}_{\alpha\sim\mathfrak{p}(\mathcal{A}),\\ (x,y)\sim\mathfrak{q}(\mathbb{D}_T)}[\mathcal{L}(\mathcal{N}(x,\alpha;\mathcal{W}_\alpha),y)] \tag{1} W=WargminEαp(A),(x,y)q(DT)[L(N(x,α;Wα),y)](1)
其中 ( x , y ) (x, y) (x,y)根据分布 q ( D T ) \mathfrak{q}(\mathbb{D}_T) q(DT)从训练数据集 D T \mathbb{D}_T DT中采样。

在第二阶段,我们继承了最优的超级网络权值 W ⋆ \mathcal{W}^{\star} W为每个子模型在验证数据集 D V \mathbb{D}_V DV上有效地评估其性能 P \mathcal{P} P。启发式搜索算法通常用于搜索性能最佳的子模型 α ⋆ \alpha^{\star} α,
α ⋆ = argmax ⁡ α ∈ A E ( x , y ) ∼ q ( D V ) [ P ( N ( x , α ; W α ⋆ ) , y ) ] (2) \alpha^\star=\underset{\alpha\in\mathcal{A}}{\operatorname{argmax}}\mathbb{E}_{(x,y)\sim\mathfrak{q}(\mathbb{D}_V)}[\mathcal{P}(\mathcal{N}(x,\alpha;\mathcal{W}_\alpha^\star),y)] \tag{2} α=αAargmaxE(x,y)q(DV)[P(N(x,α;Wα),y)](2)
每个子模型的性能使用超级网络权重来衡量,因此超级网络排名的一致性对NAS的最终性能至关重要。我们试图在训练过程中减小超级网络的梯度方差,以提高超级网络的收敛性和排名的一致性。我们提出在超级网络训练过程中联合优化 p ( A ) p(\mathcal{A}) p(A) q ( D T ) q(\mathbb{D}_T) q(DT)的抽样分布,这意味着一个以 W \mathcal{W} W为上一级变量, p p p, q q q为下一级变量的双水平优化问题
W ⋆ = argmin ⁡ W E [ L ( N ( x , α ; W α ) , y ) ]  s.t.  { α ∼ p ⋆ ( A ) , ( x , y ) ∼ q ⋆ ( D T ) , p ⋆ = argmin ⁡ p V [ d ( p ) ] , q ⋆ = argmin ⁡ q V [ d ( q ) ] (3) \begin{aligned} & \mathcal{W}^{\star}=\underset{\mathcal{W}}{\operatorname{argmin}} \mathbb{E}\left[\mathcal{L}\left(\mathcal{N}\left(x, \alpha ; \mathcal{W}_\alpha\right), y\right)\right] \\ & \text { s.t. }\left\{\begin{array}{l} \alpha \sim \mathbf{p}^{\star}(\mathcal{A}),(x, y) \sim \mathbf{q}^{\star}\left(\mathbb{D}_T\right), \\ \mathbf{p}^{\star}=\underset{\mathbf{p}}{\operatorname{argmin}} \mathbb{V}[d(\mathbf{p})], \\ \mathbf{q}^{\star}=\underset{\mathbf{q}}{\operatorname{argmin}} \mathbb{V}[d(\mathbf{q})] \end{array}\right. \\ & \end{aligned} \tag{3} W=WargminE[L(N(x,α;Wα),y)] s.t.  αp(A),(x,y)q(DT),p=pargminV[d(p)],q=qargminV[d(q)](3)
其中 d ( p ) d(p) d(p) d ( q ) d(q) d(q)是关于路径和数据采样分布的梯度方差函数。在下文中,我们将介绍如何推导它们之间的关系并交替地优化两个抽样分布。

3.2. 路径重要性采样

为简单起见,我们首先解释如何寻求最优 p ⋆ p^{\star} p数据抽样分布 q q q固定。给定总训练步骤 N N N,我们可以将公式1中的期望重新表述为
W ⋆ = arg ⁡ min ⁡ i = 1 N p i L ( N ( x i , α i ; W α i ) , y i ) (4) \mathcal{W}^{\star}=\arg\min\limits_{i=1}^N p_i\mathcal{L}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i) \tag{4} W=argi=1minNpiL(N(xi,αi;Wαi),yi)(4)
在第i步,当我们以概率 p i p_i pi从分布 p ( A ) p(\mathcal{A}) p(A)中抽样子模型 α i \alpha_i αi时,得到的随机梯度为
d i ( p i ) = 1 N p i ∇ W L ( N ( x i , α i ; W α i ) , y i ) (5) d_i(p_i)=\frac{1}{Np_i}\nabla_{\mathcal{WL}}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i) \tag{5} di(pi)=Npi1WL(N(xi,αi;Wαi),yi)(5)
其中缩放因子 ( N p i ) − 1 (N p_i)^{−1} (Npi)1确保梯度 d i ( p i ) d_i(p_i) di(pi)是真实量的无偏近似值。而在以往的研究[7,18]中,采用均匀抽样策略, α i \alpha_i αi的抽样概率为 p i = 1 / N p_i = 1/N pi=1/N。我们期望通过优化抽样分布 p p p来最小化公式5中的梯度方差,其可以由下面的优化问题表示为
min ⁡ p V [ d ( p ) ] = E [ d ⊤ d ] − E [ d ] ⊤ E [ d ] (6) \min\limits_{\mathbf{p}}\mathbb{V}[d(\mathbf{p})]=\mathbb{E}\left[d^{\top}d\right]-\mathbb{E}\left[d\right]^{\top}\mathbb{E}\left[d\right] \tag{6} pminV[d(p)]=E[dd]E[d]E[d](6)
通过将公式5引入公式6,我们得到
E [ d ⊤ d ] = ∑ i = 1 N p i 1 N 2 1 p i 2 ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ 2 E [ d ] = ∑ i = 1 N p i d i = 1 N ∑ i = 1 N ∇ W L ( N ( x i , α i ; W α i ) , y i ) (7) \mathbb{E}[d^{\top}d]=\sum_{i=1}^{N}p_i\frac{1}{N^2}\frac{1}{p_i^2}\|\nabla_{\mathcal{WL}}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|^2 \\ \mathbb{E}[d]=\sum_{i=1}^N p_id_i=\frac{1}{N}\sum_{i=1}^N\nabla_{\mathcal{WL}}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i) \tag{7} E[dd]=i=1NpiN21pi21WL(N(xi,αi;Wαi),yi)2E[d]=i=1Npidi=N1i=1NWL(N(xi,αi;Wαi),yi)(7)
我们可以看到 E [ d ] \mathbb{E}[d] E[d]与路径抽样分布 p p p无关,因此我们可以将公式6中的问题重新表述为约束优化问题
min ⁡ p ∑ i = 1 N 1 N 2 1 p i ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ 2 s.t. ∑ i = 1 N p i = 1 and p i ≥ 0 ∀ i = 1 , 2 , … N \begin{matrix}\min\limits_{\mathbf{p}}\sum_{i=1}^N\frac{1}{N^2}\frac{1}{p_i}\|\nabla_\mathcal{WL}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|^2\\ \text{s.t.}\sum_{i=1}^N p_i=1\quad\text{and}\quad p_i\geq0\quad\forall i=1,2,\dots N\end{matrix} pmini=1NN21pi1WL(N(xi,αi;Wαi),yi)2s.t.i=1Npi=1andpi0i=1,2,N
因为每个 ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ 2 ≥ 0 \|\nabla_\mathcal{WL}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|^2≥0 WL(N(xi,αi;Wαi),yi)20时,最优抽样概率 p i p_i pi必须满足不等式约束,因此我们只能考虑不等式约束。通过引入拉格朗日乘子 λ \lambda λ,我们得到如下的拉格朗日函数 Ψ ( p , λ ) \Psi(\mathbf{p},\lambda) Ψ(p,λ)
Ψ ( p , λ ) = ∑ i = 1 N 1 N 2 1 p i ∥ ∇ n u L ( N ( x i , α i ; W α i ) , y i ) ∥ 2 + λ ( ∑ i = 1 N p i − 1 ) (8) \Psi(\mathbf{p},\lambda)=\sum_{i=1}^N\frac{1}{N^2}\frac{1}{p_i}\|\nabla_{\mathcal{nu}}\mathcal{L}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|^2 +\lambda(\sum_{i=1}^N p_i-1) \tag{8} Ψ(p,λ)=i=1NN21pi1nuL(N(xi,αi;Wαi),yi)2+λ(i=1Npi1)(8)
通过设置 ∂ Ψ ( p , λ ) ∂ p i = 0 \frac{\partial\Psi(\mathbf{p},\lambda)}{\partial p_i}=0 piΨ(p,λ)=0,我们可以得到
p i = ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ N λ (9) p_i=\frac{\|\nabla_\mathcal{WL}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|}{N\sqrt{\lambda}} \tag{9} pi=Nλ WL(N(xi,αi;Wαi),yi)(9)
应用等式约束,我们有 λ = ∑ i = 1 N ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ N \sqrt{\lambda}=\sum_{i=1}^N\frac{\|\nabla_\mathcal{W L}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|}{N} λ =i=1NNWL(N(xi,αi;Wαi),yi),进一步推导出最优抽样分布 p ⋆ p^{\star} p
p i ⋆ = ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ ∑ i = 1 N ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ (10) p_i^\star=\frac{\|\nabla_\mathcal{WL}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|}{\sum_{i=1}^N\|\nabla_\mathcal{W L}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|} \tag{10} pi=i=1NWL(N(xi,αi;Wαi),yi)WL(N(xi,αi;Wαi),yi)(10)
因此,我们可以得出最优路径采样概率 p i ⋆ p^{\star}_i pi与子模型 α i \alpha_i αi的归一化梯度范数成正比,说明对梯度范数较大的子模型进行采样可以减小超级网络训练的梯度方差。

在实践中,我们将子模型 α i \alpha_i αi的梯度范数度量为其包含的候选操作的梯度范数之和,并将每个候选操作的归一化梯度范数作为其抽样概率。我们在每个常规后退步后计算梯度范数,并在每个历元后更新候选操作的抽样概率。因此,我们对路径抽样分布 p p p的优化只需要微不足道的计算,而且特别有效。

3.3. 数据重要性抽样

现在我们考虑最优数据抽样分布 q ⋆ q^{\star} q路径分布 p p p是固定的。 q q q的解是什么?与以前的工作一样是现成的[1,32,54]。他们已经证明,根据他们的归一化梯度范数对训练数据进行采样有助于减少深度模型训练的梯度方差,其可以正式表示为
q i ⋆ ∝ ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ (11) q_i^{\star}\propto\|\nabla_{\mathcal{WL}}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\| \tag{11} qiWL(N(xi,αi;Wαi),yi)(11)
然而,计算每样本梯度范数在计算上是禁止的,特别是在训练深度模型的背景下,其中常见的深度学习框架通常以批处理的方式提供平均梯度,而不是每样本的方式。一些工作[21,24,25,51]已经深入研究了这个问题,[25]设计了一种有效的方法来近似每个训练数据的梯度范数的上界。具体来说,他们提出关于最后一层的预激活输出 ∇ L \nabla_L L的损失函数的梯度可以被认为是上界的有效估计,即
sup ⁡ { ∥ ∇ W L ( N ( x i , α i ; W α i ) , y i ) ∥ } ≤ ∇ L (12) \sup\{\|\nabla_{\mathcal{WL}}(\mathcal{N}(x_i,\alpha_i;\mathcal{W}_{\alpha_i}),y_i)\|\}\le\nabla_L \tag{12} sup{ WL(N(xi,αi;Wαi),yi)}L(12)
这样,我们可以很容易地通过访问训练数据的上界来衡量每个训练数据的重要性。以图像分类任务为例,最后一层 y L y_L yL的预激活输出后通常会有一个softmax层。当使用交叉熵损失时,我们可以提前推导出 ∇ L \nabla_L L的梯度表达式,并在训练时方便地计算,如下所示
∇ L = s o f t m a x ( y L ) − 1 ( y i ) (13) \nabla_L=\mathrm{softmax}(y_L)-1(y_i) \tag{13} L=softmax(yL)1(yi)(13)
上面的计算只需要额外的一行代码,并且可以以小型批处理的方式有效地执行。因此,我们使用这个近似来估计训练数据的重要性,并在每个epoch之后采用归一化结果更新抽样分布 q q q

3.4. 重要性采样NAS

在这里插入图片描述

我们的方法旨在通过减少训练过程中的梯度方差来提高超级网络排名的一致性。我们提出了一种新颖有效的基于重要性的采样策略来训练超级网络,包括路径重要性采样和数据重要性采样。虽然我们在上述推导中固定了其中一个抽样分布,但在实践中我们对它们进行了联合优化。我们在算法1中总结了我们的超级网络训练算法。

在这里插入图片描述

路径重要性采样(PA) 根据公式10中的推导关系,我们记录并累积每个采样路径在反向传播后的梯度范数。我们使用每个候选操作的归一化梯度范数作为它们的重要度,并在每个epoch后更新采样分布。为了处理这些无参数操作并避免早期无意义的梯度信息,我们使用平滑参数 δ \delta δ来添加我们的重要抽样分布和均匀抽样分布。在训练过程中,我们简单地将 δ \delta δ从0线性增加到1,并在实验中提供了关于其他变化方案的讨论。

数据重要性抽样(DA) 我们使用公式13中的上界作为我们训练数据的重要性指标。在每个epoch之后,我们利用归一化的重要度来更新数据的采样分布,并采用替换的重要度采样策略对下一个epoch的训练指标进行采样。请注意,如果一个训练实例在当前epoch中没有采样,那么它在更新中将具有零梯度范数,从而导致零采样概率。类似地,我们使用平滑参数 τ \tau τ将我们的重要抽样分布和均匀抽样分布加在一起来解决上述问题。我们在训练期间将 τ \tau τ从0线性增加到1,并比较我们消融研究中的其他策略。

4. Experiments

为了证明PA&DA在超级网络训练过程中减少梯度方差的有效性,我们进行了两种类型的评估。第一个是在NASBench-201[15]上使用CIFAR-10数据集[26]开发的,我们提供了与其他方法的综合排名比较。第二种是基于广泛使用的公共搜索空间DARTS[31]和ProxylessNAS[4],分别使用CIFAR-10和ImageNet[27]数据集。我们对这些搜索空间进行架构搜索,并将我们的搜索性能与其他最先进的方法进行比较。在本节的最后,我们进一步提供广泛的消融研究,以深入分析我们的方法。

4.1. 超级网络排名一致性评价

搜索空间 NAS- bench -201[15]是一个流行的NAS基准,它为这个搜索空间中的每个子模型提供了CIFAR-10、CIFAR-100和ImageNet-16的训练和测试性能。子模型由具有相同结构的重复堆叠单元组成。每个单元有4个节点和6条边,每条边有5个候选操作,总共有56个体系结构。

设置 我们使用默认设置作为NAS-Bench-201构建超级网络,并在CIFAR-10数据集上进行训练。平滑参数 δ \delta δ τ \tau τ从0到1线性增加。我们使用256个总训练epoch和256个小批大小。采用SGD优化器,初始学习率为0.05,动量为0.9,采用余弦衰减策略。在训练超级网络之后,我们通过继承预训练的超级网络权重来评估测试数据集上所有子模型的性能。

为了与其他方法进行比较,我们计算了Kendall的Tau (KT)和Precision@Top5% (P@Top5%)指标。KT表示正确的排名对占所有排名对的比例,用来衡量超级网络整体排名的一致性。P@Top5%是预测的top-5%子模型在实际top-5%子模型中的比例,显示了识别优秀架构的能力。

结果 我们将结果总结在表1中。基于正则化或手工设计的方法,如FairNAS、Magic-AT和SUMNAS,不仅花费更多的训练时间,而且性能比SPOS差。NSAS获得更高的KT,但P@Top5%较低,并且花费的训练时间比SPOS多近一个数量级。虽然像Few-Shot-NAS、GM和CLOSE这样的分割方法实现了更好的KT,但它们通常需要比SPOS多几倍的成本。相比之下,PA&DA只比SPOS多需要0.2个GPU小时,并且与其他方法相比,达到了最高的KT和P@Top5%,这表明我们的训练模式是有效的,有利于提高超级网络排名一致性。

在这里插入图片描述

4.2. CIFAR-10的搜索性能

搜索空间 我们使用CIFAR-10数据集在DARTS[31]搜索空间中搜索优质单元格。超级网络由六个正常cell和两个还原cell组成。普通单元对特征图进行下采样处理,而约简单元对stride = 2的特征图进行下采样,分别位于超级网络总深度的1/3和2/3处。每个单元由7个节点、4个中间节点和14条边组成,每条边上有8个候选操作。我们为每条边搜索最强大的两个操作,以获得最终搜索的单元格。

在这里插入图片描述

设置 我们遵循NSAS[52]中的设置,将我们的方法与RandomNAS[29]相结合。我们使用动量为0.9的SGD优化器和权重衰减为3e-4的SGD优化器来训练超级网络50个epoch。初始学习率为0.025,然后通过余弦策略衰减到0.001。在超级网络训练后,我们随机搜索60轮,每轮评估100个子模型,以选择最有前途的架构。通过对搜索到的结构进行重新训练,我们将top-1的分类准确率与其他方法进行比较。我们在图3中可视化了最佳搜索单元,并在我们的Supp中提供了其他单元和重新训练细节。

结果 我们在表2中报告了三种随机种子重复实验的最佳和平均测试精度。可以看出,我们的方法达到了最高的平均测试精度97.52±0.07,超过了原始的dart及其高级变体。与其他改进的单次NAS方法(如NSAS、Few-ShotNAS、GM和CLOSE)相比,我们的方法始终以最小的搜索成本优于它们。

在这里插入图片描述

我们最好的cell如图3所示。我们可以观察到,正常单元格和约简单元格都有从输入节点的跳跃连接操作,导致与其他操作的残留链接。正如[44]中指出的那样,这种Resnet风格的残差链接有助于实现最先进的性能,这表明我们的方法在识别优秀的体系结构方面表现出色。

4.3. ImageNet上的搜索性能

搜索空间 我们使用ProxylessNAS[4]中提出的类链搜索空间,在超级网络中包括21个可搜索层。我们通过探索可搜索块的内核大小{3,5,7}和扩展率{3,6}来搜索轻量级MobileNet[36]块。在没有下采样的情况下,为块添加了一个可搜索的跳跃连接,导致每层有7或6个候选操作。

设置 我们利用我们的方法在8个GPU卡上训练超级网络120次,总批大小为2048次。采用SGD优化器,权重衰减为4e-5,动量为0.9。初始学习率为0.5,通过余弦策略衰减到5e-4。在训练超级网络之后,我们使用进化搜索算法在FLOPs约束为400 M的情况下搜索性能最好的架构,进化搜索总共持续20个epoch。在每个时代,我们维持一个有50个子模型的群体,其中分别有25个子模型来自突变和交叉。我们在ImageNet训练数据集上重新训练我们的搜索架构,并在验证数据集上评估其性能。详细的再训练配置和我们搜索的架构在我们的附录中提供。

结果 我们将结果报告在表3中。我们的PA&DA超过了DA-NAS, FairNAS-A和SUMNAS-M, FLOPs更多一些。与SPOS、ProxylessNAS、MAGIC-A - T、Few-Shot NAS和GM相比,我们的搜索结构更小,并且获得了最高的top-1准确率77.3,足以证明我们的方法的有效性。

在这里插入图片描述

4.4. 消融研究

批量大小的影响

通常,较大的批大小(batch size, BS)可以稳定梯度方差较小的深度模型的训练。我们使用SPOS[18]进行消融研究,将BS从16变化到512,以验证超级网络训练期间的这一现象。由于较大的BS往往具有较少的训练步骤,因此我们使用更多的BS 512步骤以确保足够的收敛。从图5(a)可以看出,随着BS的增大,GV单调减小,KT单调增大,其中BS 512获得的KT最佳值为0.670±0.029。这些结果进一步验证了较低的梯度方差有利于超级网络的训练,这完全符合我们的想法。

在这里插入图片描述

但是PA&DA不需要比BS 512更多的训练步骤,并且得到更高的KT 0.713±0.002,效率和效果要高得多。

平滑参数计划的影响

为了提高数据索引的预加载效率,我们在每个历元后更新DA的采样概率。我们探索了 τ \tau τ的两种变化方式:线性减少和线性增加,并在表4中评估了样本或类别的分布粒度。注意,使用样本分布和线性增加 τ \tau τ会产生最好的结果。对于PA,我们研究了采样分布的更新频率和 δ \delta δ的两种变化方式。结果表明,更新每epoch采样概率和线性增加 δ \delta δ值效果较好。这两个结果都表明平滑参数的线性增加计划,表明重要性采样在训练后期更可取。

在这里插入图片描述

DA和PA的影响

我们在表5中对DA和PA进行消融研究。当DA和PA都被禁用时,我们的方法退化为基线方法SPOS[18]。任意一种方法均可得到较高的KT和P@Top5%。此外,两个模块相互配合良好,两者结合使用效果最佳。此外,我们通过经验观察到,PA比DA贡献了更多的性能收益。

在这里插入图片描述

5. Analysis and Discussions

5.1. 梯度方差比较

为了展示PA&DA在超级网络训练过程中减少梯度方差的优势,我们使用NASBench-201[15]搜索空间,在CIFAR-10、CIFAR-100和ImageNet-16-120数据集上进一步将PA&DA与基线方法SPOS[18]进行比较。我们用三种不同的种子重复实验,记录下每一epoch的超网梯度方差如图4所示。随着训练的进行和平滑参数的线性增加,原有的路径和数据的均匀采样策略逐渐向有偏采样转变,使得PA&DA的梯度方差低于基线。由于这一优势,PA&DA训练的超级网络在三个数据集上获得了更高的排序一致性,如图4(d)所示。

在这里插入图片描述

5.2. PA路径的可训练性

如前所述,PA比DA起着更关键的作用。为了探索其关键优势,我们采用TE-NAS[6]的可训练性来测量每个训练步骤的采样路径。结果如图5(b)所示。我们可以看到PA的采样路径始终具有比基线更高的可训练性,特别是在训练结束时,这解释了PA的收敛速度更快和泛化性能更好。

6. Conclusion

在这项工作中,我们通过联合优化路径和数据采样分布来减少超级网络训练的梯度方差,以提高超级网络排名的一致性。我们推导了梯度方差和抽样分布之间的关系,并使用归一化梯度范数来更新这两个分布。大量的实验证明了该方法的有效性。在未来,我们将进一步探索更有效的方法来减少超级网络训练的梯度方差。

Appendix

A. 超网梯度方差的计算

B. 再训练配置

B.1. Darts搜索空间设置

B.2. ProxylessNAS搜索空间设置

C. 可视化

C.1. Darts搜索空间搜索cell

在这里插入图片描述

C.2. ProxylessNAS搜索空间搜索架构

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_43790925/article/details/130559645
NAS