对抗AUTOMIXUP

摘要

https://arxiv.org/pdf/2312.11954.pdf
数据混合增强已被广泛应用于提高深度神经网络的泛化能力。最近,自动混合方法逐渐取代了手工制作和基于显著性信息的混合方法等离线数据混合增强方法。通过以端到端的方式最小化两个子任务,即混合样本生成和混合分类,AutoMix显着提高了图像分类任务的准确性。然而,由于两个子任务的优化目标是一致的,这种方法容易生成一致而不是多样化的混合样本,导致目标任务训练出现过拟合。本文提出了AdAutomixup,这是一种对抗性的自动混合增强方法,通过交替优化分类器和混合样本生成器来生成具有挑战性的样本,以训练出稳健的图像分类器。AdAutomixup由两个模块组成:混合样本生成器和目标分类器。混合样本生成器的目标是生成具有挑战性的混合样本,以挑战目标分类器;而目标分类器的目标是学习从具有挑战性的混合样本中提取的稳健特征,以提高泛化能力。为了防止图像固有意义的崩溃,我们进一步引入了一个指数移动平均(EMA)教师和余弦相似度,以端到端的方式训练AdAutomixup。在七个图像基准上的大量实验一致证明,我们的方法在各种分类场景中优于现有技术。源代码可在以下链接中找到:https://github.com/JinXins/Adversarial-AutoMixup

1、简介

由于其强大的特征表示能力,深度神经网络模型(如卷积神经网络(CNN)和转换器)已成功应用于各种任务,例如图像分类(Krizhevsky等,2012;Li等,2022b;2023b;a)、目标检测(Bochkovskiy等,2020)和自然语言处理(Vaswani等,2017)。其中一个重要的原因是,它们通常利用大型训练数据集来训练大量网络参数。然而,当数据不足时,它们容易发生过拟合,并做出过度自信的预测,这可能会降低测试样本的泛化性能。

为了缓解这些缺点,提出了数据增强(DA)来生成样本,以改善下游目标任务的泛化性能。Mixup(Zhang等,2017)是一种最近的数据增强方案,由于它可以通过简单地将成对样本及其标签的凸组合来生成虚拟混合样本,从而有效地训练深度学习(DL)模型,因此受到了越来越多的关注。针对图像分类而提出的数据增强方法(Li等,2021;Shorten和Khoshgoftaar,2019;Cubuk等,2018;2020;Fang等,2020;Ren等,2015;Li等,2020)可以大致分为三类:1)基于手工制作的数据增强方法,其中一张图像的区域被随机剪切并粘贴到另一张图像上。后者的真实标签与前者的标签按替换区域的面积成比例混合。代表性的方法包括CutMix(Yun等,2019)、Cutout(DeVries和Taylor,2017)、ManifoldMixup(Verma等,2019)和ResizeMix(Qin等,2020)。CutMix和ResizeMix(如图1所示)通过随机将一张图像中的一块区域替换为另一张图像中的区域来生成混合样本;2)基于显著性信息的数据增强方法,根据图像显著性地图生成高质量样本,通过保留最大显著性区域。代表性的方法(Uddin等,2020;Walawalkar等,2020;Kim等,2020;Park等,2021;Liu等,2022c)通过最大化显著性区域来学习最佳混合策略;3)基于自动混合的数据增强方法,学习一个模型(例如DL模型),而不是策略来自动生成混合图像。例如,提出了一个AutoMix模型用于数据增强,该模型由目标分类器和生成网络组成,通过交替优化目标分类器和生成网络来自动生成混合样本,以训练一个鲁棒的分类器。

然而,手工制作的混合增强方法会随机混合图像,而不会考虑它们的上下文和标签。因此,目标物体可能会在混合的图像中被忽略,导致标签不匹配问题。基于显著性信息的混合增强方法可以缓解这个问题,因为图像会与监督信息(即最大显著性区域)结合。这些混合模型与上述前两类模型共享相同的学习范式:由随机或可学习的混合策略生成的增强训练数据集和用于图像分类的深度学习模型。由于图像生成与目标任务(即分类)没有直接关系,因此由人类先验知识(即基于显著性的)指导生成的图像可能对目标网络训练无效。此外,不可能为目标训练生成所有可能的混合实例。因此,随机选择的合成样本可能无法代表分类任务,最终导致分类器泛化能力下降。此外,这样的生成样本将被输入目标网络多次,导致长周期训练中不可避免地出现过拟合。为了克服这些问题,基于自动混合的增强方法通过一个具有良好复杂度-精度权衡的子网络生成增强图像。这种方法包括两个子任务:一个混合样本生成模块和一个分类模块,这两个模块通过最小化端到端的分类损失进行联合优化。由于这两个子任务具有一致的优化目标,然而,生成模块可能无法得到有效的指导,因此可能会产生简单的混合样本以实现这一目标,这限制了样本的多样性。因此,使用此类简单示例训练的分类器容易受到过拟合的影响,导致在测试集上的泛化性能较差。另一个限制是,当前的自动混合方法仅在图像生成时将两个图像混合在一起,没有有效地利用丰富且具有区分性的信息。

为了解决这些问题,我们在这篇论文中提出了AdAutomixup,这是一种对抗性的自动混合增强方法,通过端到端的方式自动生成混合样本,如图2所示。首先,我们研究了基于注意力机制的生成器,以从与相应混合标签相关联的样本对中动态学习具有区分性的像素。其次,我们将基于注意力机制的生成器与目标分类器相结合,构建一个对抗性网络,其中生成器和分类器通过对抗性训练进行交替更新。与AutoMix(Liu等,2022d)不同,我们的生成器通过生成对抗性样本来增加目标网络的训练损失,而分类器则从困难样本中学习更稳健的特征来提高泛化能力。此外,我们的生成器可以将任何图像集作为输入进行混合图像生成,而不是仅限于两个图像,这使得混合样本更加多样化。我们的主要贡献总结如下。
(a) 我们提出了一种基于对抗学习策略的在线数据混合方法,该方法通过端到端训练自动生成混合样本。
(b) 我们提出了一种对抗性框架,以联合优化目标网络训练和混合样本生成器。生成器的目的是产生困难样本以增加目标网络损失,而目标网络通过训练此类困难样本学习稳健的表示以改进分类。为了防止图像内在意义的崩溃,我们采用指数移动平均(EMA)和余弦相似度来减少搜索空间。
© 我们探索了一种基于注意力机制的混合样本生成器,该生成器可以组合多个样本而不是仅限于两个样本来生成混合样本。由于其架构不会随着输入图像的增加而改变,因此该生成器具有灵活性。

2、相关工作

基于手工制作的混合增强技术 Mixup(Zhang 等人,2017年)是第一个混合数据增强方法,通过从任何两个样本及其独热标签中减去来生成混合样本。ManifoldMixup(Verma 等人,2019年)将此混合从输入空间扩展到特征空间。为了利用其空间局部性,CutMix(Yun 等人,2019年)裁剪出一个区域,并用另一张图像的补丁替换它。为了改进 MixUp 和 CutMix,FMix(Harris 等人,2020年)使用从频率空间中采样的低频图像应用阈值获得的随机二进制掩码。RecursiveMix(Yang 等人,2022年)迭代地调整输入图像补丁的大小,并将其粘贴到当前补丁中。为了解决由 CutMix 引起的强烈的“边缘”问题,SmoothMix(Jeong 等人,2021年)基于软边缘混合混合图像,并相应地计算训练标签。

基于显著性引导的混合增强技术 SaliencyMix(Uddin 等人,2020年)、SnapMix(Huang 等人,2020年)和 Attentive-CutMix(Walawalkar 等人,2020年)基于由 Class Activation Mapping(CAM)(Selvaraju 等人,2019年)或显著性检测器检测到的显著区域生成混合图像。类似地,PuzzleMix(Kim 等人,2020年)和 Co-Mixup(Kim 等人,2021年)提出了一种优化策略,通过最大化样本显著性区域来获得最佳掩码。然而,这些方法缺乏样本多样性,因为它们总是确定性地选择具有最大显著性的区域。为了解决这个问题,Saliency Grafting(Park 等人,2021年)通过缩放和阈值化显著性图来考虑所有显著区域,以增加样本多样性。受到Vit(Dosovitskiy 等人,2021年;Liu 等人,2021年)在计算机视觉领域的成功启发,基于自适应混合策略的注意力图,例如 TransMix(Chen 等人,2021年)、TokenMix(Liu 等人,2022a年)、TokenMixup(Choi 等人,2022年)、MixPro(Zhao 等人,2023年)和 SMMix(Chen 等人,2022年)被提出以生成混合图像。

基于自动混合的增强方法 前面两类中的混合方法允许在精确的混合策略和优化复杂性之间进行权衡,因为在训练过程中,图像混合任务与目标分类任务不直接相关。为了解决这个问题,AutoMix(Liu 等人,2022d)将混合分类分为两个子任务:混合样本生成和混合分类,并提出了一个自动混合框架,其中两个子任务以端到端的方式联合而不是独立地进行优化。经过训练后,生成器直接产生混合样本,而目标分类器保留用于分类。近年来,对抗性数据增强(Zhao 等人,2020年)和生成对抗网络(Antoniou 等人,2017年)被提出用于自动生成用于数据增强的图像。为了解决域偏移问题,Adversarial MixUp(Zhang 等人,2023年;Xu 等人,2019年)被研究用于合成混合样本或特征以进行域适应。虽然自动混合的工作很少,但后者将成为未来的研究趋势。

3、ADAUTOMIX

在本文中,我们介绍了AdAutoMix的实现,它由目标分类器和生成器组成,如Fig.2所示。首先,我们介绍了混合分类问题并定义了损失函数。然后,我们详细介绍了基于注意力机制的生成器,该生成器可以动态地学习图像生成时的增强掩码策略。最后,我们展示了目标分类器和生成器如何以端到端的方式进行联合优化。

3.1、深度学习分类器

假设 S = { x s ∣ s = 1 , 2 , … , S } \mathbb{S} = \{x_{s} \mid s = 1, 2, \ldots, S\} S={ xss=1,2,,S} 是一个训练集,其中 S S S 是图像的数量。我们从 S \mathbb{S} S 中选择任意 N N N 个样本,得到样本集 X = { x 1 , x 2 , … , x N } \mathbb{X} = \{x_{1}, x_{2}, \ldots, x_{N}\} X={ x1,x2,,xN},以及对应的标签集 Y = { y 1 , y 2 , … , y N } \mathbb{Y} = \{y_{1}, y_{2}, \ldots, y_{N}\} Y={ y1,y2,,yN}。让 ψ W \psi_{W} ψW 是一个特征提取模型,例如 ResNet(He et al., 2016),其中 W W W 是一个可训练的权重向量。分类器将示例 x ∈ X x \in \mathbb{X} xX 映射到标签 y ∈ Y y \in \mathbb{Y} yY。一个深度学习分类器 ψ W \psi_{W} ψW 被实现来预测后验类别概率,并且 W W W 通过最小化分类损失(即 Eq.(1) 中的交叉熵 (CE) 损失)进行学习。
L c e ( ψ W , y ) = − y log ⁡ ( ψ W ( x ) ) (1) \mathrm{L}_{\mathrm{ce}}\left(\psi_{W}, y\right)=-y \log \left(\psi_{W}(x)\right) \tag{1} Lce(ψW,y)=ylog(ψW(x))(1)

对于样本集 X \mathbb{X} X 中的 N N N 个样本,我们通过 Eq.(2) 计算平均交叉熵 (ACE) 损失。
L a c e ( ψ W , Y ) = ∑ n = 1 N (   L c e ( ψ W ( x n ) , y n ) ∗ λ n ) . (2) \mathrm{L}_{\mathrm{ace}}\left(\psi_{W}, \mathbb{Y}\right)=\sum_{n=1}^{N}\left(\mathrm{~L}_{\mathrm{ce}}\left(\psi_{W}\left(x_{n}\right), y_{n}\right) * \lambda_{n}\right) .\tag{2} Lace(ψW,Y)=n=1N( Lce(ψW(xn),yn)λn).(2)

其中 * 表示标量乘法。在混合分类任务中,我们将与混合比率 λ 相关的任意 N 个图像输入到生成器 G θ ( ⋅ ) G_{\theta}(\cdot) Gθ() 中,该生成器输出混合样本 x m i x x_{mix} xmix,如第 3.2 节中的 Eq.(8) 所定义。同样,这种混合图像 x m i x x_{mix} xmix 的标签是通过 y m i x = ∑ n = 1 N y n ⊙ λ n y_{mix} = \sum_{n=1}^{N} y_{n} \odot \lambda_{n} ymix=n=1Nynλn 获得的。 ψ W \psi_{W} ψW 通过 Eq.(3) 中的平均混合交叉熵 (AMCE) 损失进行优化:

L amce  ( ψ W , Y ) = L c e ( ψ W ( x m i x ) , y m i x ) (3) \mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)=\mathrm{L}_{\mathrm{ce}}\left(\psi_{W}\left(x_{m i x}\right), y_{m i x}\right)\tag{3} Lamce (ψW,Y)=Lce(ψW(xmix),ymix)(3)

同样,我们通过 Eq.(4) 计算混合交叉熵 (MCE):
L mce  ( ψ W , y m i x ) = L c e ( ψ W ( ∑ n = 1 N ( x n ∗ λ n ) ) , y m i x ) (4) \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{m i x}\right)=\mathrm{L}_{\mathrm{ce}}\left(\psi_{W}\left(\sum_{n=1}^{N}\left(x_{n} * \lambda_{n}\right)\right), y_{m i x}\right)\tag{4} Lmce (ψW,ymix)=Lce(ψW(n=1N(xnλn)),ymix)(4)

3.2、生成器

如第2节所述,现有的方法大多通过手动设计策略或自动学习策略混合两个样本,这导致训练样本为数据增强提供的监督信息可能没有被充分利用。在我们的工作中,我们提出一个通用生成框架,将两个图像的混合扩展到多个图像的混合。为了学习一个鲁棒的混合策略矩阵,我们利用自注意力机制提出了一个基于注意力混合样本生成器,如图3所示。如第3.1节所述, X = { x n ∣ n = 1 , 2 , … , N } \mathbb{X} = \{x_{n} \mid n=1,2, \ldots, N\} X={ xnn=1,2,,N} 是一个样本集,其中 N N N 是原始训练样本的数量, Y = { Y n ∣ n = 1 , 2 , … , N } \mathbb{Y} = \{Y_{n} \mid n=1,2, \ldots, N\} Y={ Ynn=1,2,,N} 是相应的标签。我们定义 λ = { λ 1 , λ 2 , … , λ N } \lambda = \{\lambda_{1}, \lambda_{2}, \ldots, \lambda_{N}\} λ={ λ1,λ2,,λN} 为图像的混合比率集,它们的和被约束为等于1。如图3所示,图像集中的每张图像首先被映射到一个特征图上,通过编码器 E ϕ E_{\phi} Eϕ 进行编码,该编码器通过目标分类器的指数移动平均值进行更新,即 ϕ ^ = ξ ϕ ^ + ( 1 − ξ ) W ′ \hat{\phi} = \xi \hat{\phi} + (1-\xi) W^{\prime} ϕ^=ξϕ^+(1ξ)W,其中 W ′ W^{\prime} W 是目标分类器的部分权重。在我们的实验中,现有的分类器 ResNet18、ResNet34 和 ResNeXt50 被用作目标分类器, W ′ W^{\prime} W 是目标分类器中前三个层的权重向量。然后,混合比率被嵌入到结果特征图中,使生成器能够学习图像混合的掩码策略。例如,给定第 n n n 张图像 x n ∈ R W × H x_{n} \in R^{W \times H} xnRW×H,其中 W W W H H H 分别表示图像的宽度和高度,我们将它输入到一个编码器中,并从其第 l l l 层获取特征图 z n l ∈ R C × w × h z_{n}^{l} \in R^{C \times w \times h} znlRC×w×h,其中 C C C 是通道数, w w w h h h 分别表示地图的大小。然后,我们构建一个大小为 w × h w \times h w×h 的矩阵,其中所有值都等于 1,乘以相应的比率 λ n \lambda_{n} λn 以获得嵌入矩阵 M λ n M_{\lambda_{n}} Mλn。我们通过将 λ n \lambda_{n} λn 与第 l l l 个特征图进行连接来以简单而有效的方式嵌入 λ n \lambda_{n} λn,即 z λ n l = concat ⁡ ( M λ n , z n l ) ∈ R ( C + 1 ) × w × h z_{\lambda_{n}}^{l} = \operatorname{concat}\left(M_{\lambda_{n}}, z_{n}^{l}\right) \in R^{(C+1) \times w \times h} zλnl=concat(Mλn,znl)R(C+1)×w×h。嵌入的特征图 z λ n l z_{\lambda_{n}}^{l} zλnl 通过三个具有 1 × 1 1 \times 1 1×1 核的 CNNs 进行映射以获得三个嵌入向量(如上文所述)。因此,我们为第 n n n 张图像 x n x_{n} xn 获得三个向量 q n , k n , v n q_{n}, k_{n}, v_{n} qn,kn,vn。请注意,为了节省计算时间,将 q n q_{n} qn k n k_{n} kn 的通道数减少到原来的一半,并将其设置为 1。这样,我们计算了所有图像的嵌入向量,并用 q 1 , q 2 , … , q N , k 1 , k 2 , … , k N , v 1 , v 2 , … , v N q_{1}, q_{2}, \ldots, q_{N}, k_{1}, k_{2}, \ldots, k_{N}, v_{1}, v_{2}, \ldots, v_{N} q1,q2,,qN,k1,k2,,kN,v1,v2,,vN 表示。对于第 n n n 张图像的交叉注意力块(CAB)由以下公式计算(如上文所述):
P n = Softmax ⁡ ( ∑ i = 1 , i ≠ n N q n T k i d ) v n (5) P_{n}=\operatorname{Softmax}\left(\frac{\sum_{i=1, i \neq n}^{N} q_{n}^{T} k_{i}}{\sqrt{d}}\right) v_{n} \tag{5} Pn=Softmax(d i=1,i=nNqnTki)vn(5)

其中 d d d 是归一化项。我们通过等式 (6) 连接 N N N 个注意力矩阵:
P = Softmax ⁡ ( Concat ⁡ ( P 1 , P 2 , … , P N ) ) (6) P=\operatorname{Softmax}\left(\operatorname{Concat}\left(P_{1}, P_{2}, \ldots, P_{N}\right)\right) \tag{6} P=Softmax(Concat(P1,P2,,PN))(6)

矩阵 P ∈ R N × w h × w h P \in R^{N \times w h \times w h} PRN×wh×wh 通过上采样被调整为 P ′ ∈ R N × W × H P^{\prime} \in R^{N \times W \times H} PRN×W×H。我们将 P ′ P^{\prime} P 分割为 N N N 个矩阵,即 P 1 ′ , P 2 ′ , … , P N ′ P_{1}^{\prime}, P_{2}^{\prime}, \ldots, P_{N}^{\prime} P1,P2,,PN,并将其视为用于混合样本集 X \mathbb{X} X 中的图像的掩码策略矩阵。通过等式 (7) 进行混合:
x m i x = ∑ n = 1 N x n ⊙ P n ′ (7) x_{m i x}=\sum_{n=1}^{N} x_{n} \odot P_{n}^{\prime} \tag{7} xmix=n=1NxnPn(7)

其中 ⊙ \odot 表示哈达玛积。为了便于表示,混合图像生成过程通过等式 (8) 定义为生成器 G θ G_{\theta} Gθ
x m i x = G θ ( X , λ ) (8) x_{m i x}=G_{\theta}(\mathbb{X}, \lambda) \tag{8} xmix=Gθ(X,λ)(8)

其中 θ \theta θ 表示生成器中所有可学习的参数。

3.3 对抗增强

这一部分介绍了我们提出的用于通过对抗学习联合优化目标网络 ψ W \psi_{W} ψW 和生成器 G θ G_{\theta} Gθ 的对抗框架。具体来说,生成器 G θ G_{\theta} Gθ 试图生成一个增强的混合图像集,以增加目标网络 ψ W \psi_{W} ψW 的损失,而目标网络 ψ W \psi_{W} ψW 则旨在最小化分类损失。在达到平衡时,学到的表示将达到最大性能。

3.3.1 对抗损失

如等式 (8) 所示,生成器接收 X \mathbb{X} X 和混合比率集 λ \lambda λ 作为输入,并输出合成的图像 x m i x x_{m i x} xmix 来挑战目标分类器。后者接收来自生成器的真实或合成的图像作为输入,然后预测其属于每个类的概率。对抗损失是通过以下最小化最大化问题定义的,以便通过等式 (9) 对两个玩家进行训练:
W ∗ , θ ∗ = argmin ⁡ W max ⁡ θ [ E x ∈ S [ L amce  ( ψ W , Y ) ] ] (9) W^{*}, \theta^{*}=\underset{W}{\operatorname{argmin}} \max _{\theta}\left[\underset{\mathrm{x} \in \mathbb{S}}{\mathbb{E}}\left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)\right]\right] \tag{9} W,θ=Wargminθmax[xSE[Lamce (ψW,Y)]](9)

其中 S \mathbb{S} S X \mathbb{X} X 分别为训练集和图像集。一个鲁棒的分类器不仅要正确分类混合图像,还要正确分类原始图像,因此我们结合了两个正则化项 L mce  ( ψ W ( x m i x , y m i x ) ) \mathrm{L}_{\text {mce }}\left(\psi_{W}\left(x_{m i x}, y_{m i x}\right)\right) Lmce (ψW(xmix,ymix)) L ace  ( ψ W , Y ) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right) Lace (ψW,Y) 来提高性能。因此,目标函数被重写为等式 (10) 的形式:
W ∗ , θ ∗ = argmin ⁡ W max ⁡ θ [ E X ∈ S [ L amce  ( ψ W , Y ) + α L mce  ( ψ W , y mix  ) + ( 1 − α ) L ace  ( ψ W , Y ) ] ] (10) W^{*}, \theta^{*}=\underset{W}{\operatorname{argmin}} \max _{\theta}\left[\underset{\mathbb{X} \in \mathbb{S}}{\mathbb{E}}\left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)+\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{\text {mix }}\right)+(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right]\right] \tag{10} W,θ=Wargminθmax[XSE[Lamce (ψW,Y)+αLmce (ψW,ymix )+(1α)Lace (ψW,Y)]](10)

为了优化参数 θ \theta θ G θ ( ⋅ ) G_{\theta}(\cdot) Gθ() 会根据给定的图像集生成图像,以挑战分类器。因此,图像的内在意义(即它们的语义意义)可能会崩溃。

为了解决这个问题,我们引入余弦相似性和一个教师模型作为两个正则化项,以控制混合图像的质量。因此,损失函数相应地改变,如等式 (11) 所示:
W ∗ , θ ∗ = argmin ⁡ max ⁡ W [ E X ∈ S [ L amce  ( ψ W , Y ) + α L mce  ( ψ W , y mix  ) + ( 1 − α ) L ace  ( ψ W , Y ) − β L amce  ( ψ W ^ , Y ) + ( 1 − β ) L cosine  ] ] (11) \begin{aligned} W^{*}, \theta^{*}= & \underset{W}{\operatorname{argmin} \max }\left[\underset { \mathbb { X } \in \mathbb { S } } { \mathbb { E } } \left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)+\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{\text {mix }}\right)+(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right.\right. \\ & \left.\left.-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)+(1-\beta) \mathrm{L}_{\text {cosine }}\right]\right] \end{aligned} \tag{11} W,θ=Wargminmax[XSE[Lamce (ψW,Y)+αLmce (ψW,ymix )+(1α)Lace (ψW,Y)βLamce (ψW ,Y)+(1β)Lcosine ]](11)

其中 L c o s i n e = s u m n = 1 N c o s i n e ( ψ W ^ ( x m i x ) , ψ _ W ^ ( x n ) ) ∗ λ _ n \mathrm{L}_{\mathrm{cosine}} = sum_{n=1}^{N} cosine \left(\psi_{\widehat{W}}\left(x_{m i x}\right), \psi\_{\widehat{W}}\left(x_{n}\right)\right) * \lambda\_{n} Lcosine=sumn=1Ncosine(ψW (xmix),ψ_W (xn))λ_n c o s i n e ( ⋅ ) cosine(\cdot) cosine() 是余弦相似性函数, ψ W ^ \psi_{\widehat{W}} ψW 是一个教师模型,其权重通过目标模型权重(EMA)的指数移动平均值进行更新,即 W ^ ← ξ W ^ + ( 1 − ξ ) W \widehat{W} \leftarrow \xi \widehat{W}+(1-\xi) W W ξW +(1ξ)W。请注意, L c e ( ψ W , y ) \mathrm{L}_{\mathrm{ce}}\left(\psi_{W}, y\right) Lce(ψW,y) 是标准交叉熵损失。 L ace  ( ψ W , Y ) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right) Lace (ψW,Y) 损失有助于在早期阶段提供稳定的特征图,从而加速收敛。目标损失 L amce  ( ψ W , Y ) \mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right) Lamce (ψW,Y) 的目的是在生成的混合样本中学习任务相关信息。 L mce  ( ψ W , y m i x ) \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{m i x}\right) Lmce (ψW,ymix) 有助于在原始混合样本中捕获任务相关信息。 L cosine \mathrm{L}_{\text {cosine}} Lcosine L amce  ( ψ W ^ , Y ) \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right) Lamce (ψW ,Y) 用于控制生成混合图像的质量。

3.4 对抗优化

与许多现有的对抗训练算法类似,很难直接找到等式 (11) 中的最小化问题的鞍点 ( W ∗ , θ ∗ ) \left(W^{*}, \theta^{*}\right) (W,θ)。因此,我们采用梯度下降和上升的一对算法来更新目标网络和生成器。
考虑目标分类器 ψ W ( ⋅ ) \psi_{W}(\cdot) ψW() 和损失函数 L c e ( ⋅ ) \mathrm{L}_{\mathrm{ce}}(\cdot) Lce(),其中训练的生成器 G θ ( ⋅ ) G_{\theta}(\cdot) Gθ() 将多个原始样本映射到混合样本。目标网络的学习过程可以定义为等式 (12) 中的最小化问题:

W ∗ = argmin ⁡ W [ E X ∈ S [ L amce  ( ψ W , Y ) + α L mce  ( ψ W , y mix  ) + ( 1 − α ) L ace  ( ψ W , Y ) − β L amce  ( ψ W ^ , Y ) + ( 1 − β ) L cosine  ] ] (12) \begin{aligned} W^{*}= & \underset{W}{\operatorname{argmin}}\left[\underset { \mathbb { X } \in \mathbb { S } } { \mathbb { E } } \left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)+\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{\text {mix }}\right)+(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right.\right. \\ & \left.\left.-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)+(1-\beta) \mathrm{L}_{\text {cosine }}\right]\right] \end{aligned} \tag{12} W=Wargmin[XSE[Lamce (ψW,Y)+αLmce (ψW,ymix )+(1α)Lace (ψW,Y)βLamce (ψW ,Y)+(1β)Lcosine ]](12)

对于等式 (12) 中的问题,通常通过带有学习率 δ \delta δ 和批量大小 B B B 的普通随机梯度下降 (SGD) 来解决。对于每个批次的训练过程,可以通过等式 (13) 进行计算:

W ( t + 1 ) = W ( t ) − δ ∇ W 1 K ∑ k = 1 K [   L amce  ( ψ W , Y ) + α L mce  ( ψ W , y m i x ) + ( 1 − α ) L ace  ( ψ W , Y ) − β L amce  ( ψ W ^ , Y ) + ( 1 − β ) L cosine  ] (13) \begin{aligned} W(t+1)= & W(t)-\delta \nabla_{W} \frac{1}{K} \sum_{k=1}^{K}\left[\mathrm{~L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)+\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{m i x}\right)+(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right. \\ & \left.-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)+(1-\beta) \mathrm{L}_{\text {cosine }}\right] \end{aligned} \tag{13} W(t+1)=W(t)δWK1k=1K[ Lamce (ψW,Y)+αLmce (ψW,ymix)+(1α)Lace (ψW,Y)βLamce (ψW ,Y)+(1β)Lcosine ](13)
其中 K K K 是从补丁集 B B B 生成的混合图像或图像集的数量。由于余弦相似性和教师模型与 W W W 无关,等式 (13) 可以更改为等式 (14):

W ( t + 1 ) = W ( t ) − δ ∇ W 1 K ∑ k = 1 K [   L amce  ( ψ W , Y ) + α L mce  ( ψ W , y m i x ) + ( 1 − α ) L ace  ( ψ W , Y ) ] (14) W(t+1)=W(t)-\delta \nabla_{W} \frac{1}{K} \sum_{k=1}^{K}\left[\mathrm{~L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)+\alpha \mathrm{L}_{\text {mce }}\left(\psi_{W}, y_{m i x}\right)+(1-\alpha) \mathrm{L}_{\text {ace }}\left(\psi_{W}, \mathbb{Y}\right)\right] \tag{14} W(t+1)=W(t)δWK1k=1K[ Lamce (ψW,Y)+αLmce (ψW,ymix)+(1α)Lace (ψW,Y)](14)

请注意,训练过程可以被视为对 K K K 个梯度计算实例的平均,这可以减少梯度方差并加速目标网络的收敛。然而,由于长训练周期中训练数据有限,训练可能容易受到过拟合的影响。为了解决这个问题,与 AutoMix (Liu et al., 2022d) 不同,我们的 Mixup 增强生成器将生成一组更难的混合样本以增加目标分类器的损失,从而形成一个最小化最大化问题来自我训练网络。这种自我监督的目标可能足够具有挑战性,以防止目标分类器过度拟合目标。因此,目标被定义为等式 (15) 中的最大化问题:

θ ∗ = argmax ⁡ θ [ E X ∈ S [ L amce  ( ψ W , Y ) − β L amce  ( ψ W ^ , Y ) + ( 1 − β ) L cosine  ] ] (15) \theta^{*}=\underset{\theta}{\operatorname{argmax}}\left[\underset{\mathbb{X} \in \mathbb{S}}{\mathbb{E}}\left[\mathrm{L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)+(1-\beta) \mathrm{L}_{\text {cosine }}\right]\right] \tag{15} θ=θargmax[XSE[Lamce (ψW,Y)βLamce (ψW ,Y)+(1β)Lcosine ]](15)

为了解决上述问题,我们采用梯度上升法,以学习率 γ 更新参数,这定义在等式 (16) 中:
θ ( t + 1 ) = θ ( t ) + γ ∇ W 1 K ∑ k = 1 K [   L amce  ( ψ W , Y ) − β L amce  ( ψ W ^ , Y ) + ( 1 − β ) L cosine  ] (16) \theta(t+1)=\theta(t)+\gamma \nabla_{W} \frac{1}{K} \sum_{k=1}^{K}\left[\mathrm{~L}_{\text {amce }}\left(\psi_{W}, \mathbb{Y}\right)-\beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)+(1-\beta) \mathrm{L}_{\text {cosine }}\right] \tag{16} θ(t+1)=θ(t)+γWK1k=1K[ Lamce (ψW,Y)βLamce (ψW ,Y)+(1β)Lcosine ](16)

直观地说,等式 (16) 的优化是两个子任务的综合,即最大化 L c e ( ψ W ( x m i x , y m i x ) ) \mathrm{L}_{\mathrm{ce}}\left(\psi_{W}\left(x_{m i x}, y_{m i x}\right)\right) Lce(ψW(xmix,ymix)) 和最小化 β L amce  ( ψ W ^ , Y ) − ( 1 − β ) L cosine  \beta \mathrm{L}_{\text {amce }}\left(\psi_{\widehat{W}}, \mathbb{Y}\right)-(1-\beta) \mathrm{L}_{\text {cosine }} βLamce (ψW ,Y)(1β)Lcosine 。换句话说,这倾向于将合成的混合样本推离真实样本以增加多样性,同时确保合成的混合样本对于教师模型是可识别的,并在与原始图像的特征表示的约束相似性范围内保持,以避免图像的内在意义崩溃。这种方案通过紧密跟踪分类器的更新来生成具有挑战性的样本。我们在附录 B.2 和 B.3 中提供了一些混合样本。

4、实验

为了评估我们的方法性能,我们在七个分类基准数据集上进行了大量实验,即 CIFAR100 (Krizhevsky et al., 2009)、Tiny-ImageNet (Chrabaszcz et al., 2017)、ImageNet-1K (Krizhevsky et al., 2012)、CUB-200 (Wah et al., 2011)、FGVC-Aircraft (Maji et al., 2013) 和 Standford-Cars (Krause et al., 2013)(附录 A.1)。为了公平评估,我们将我们的 AdAutoMixup 与一些当前的 Mixup 方法进行比较,即 Mixup (Zhang et al., 2017)、CutMix (Yun et al., 2019)、ManifoldMix (Verma et al., 2019)、FMix (Harris et al., 2020)、ResizeMix (Qin et al., 2020)、SaliencyMix (Uddin et al., 2020)、PuzzleMix (Kim et al., 2020) 和 AutoMix (Liu et al., 2022d)。为了验证我们的方法泛化性,我们使用五个基准网络,即 ResNet18、ResNet34、ResNet50 (He et al., 2016)、ResNeXt50 (Xie et al., 2017)、SwinTransformer (Liu et al., 2021) 和 ConvNeXt(Liu et al., 2022b),来计算分类准确率。我们已经在开源库 OpenMixup (Li et al., 2022a) 上实现了我们的算法。一些常见参数遵循 AutoMix 的实验设置,我们在附录 A.2 中提供我们自己的超参数。对于所有分类结果,我们报告每个试验的最后 10 个训练周期中每个试验的 top-1 测试准确度的中位值。为了便于比较,我们将最佳和第二佳结果标记为粗体和青色。

4.1、分类结果

4.1.1、数据集分类

我们首先在 CIFAR100 上使用以下实验设置对 ResNet18 和 ResNeXt50 进行 800 个训练周期的训练:基本学习率为 0.1,通过余弦调度器动态调整,使用带有动量为 0.9 的 SGD (Loshchilov & Hutter, 2016) 优化器,权重衰减为 0.0001,批量大小为 100。对于基于 ViT 的方法,例如 Swin-Tiny Transformer 和 ConvNeXt-Tiny,我们使用带有权重衰减为 0.05 的 AdamW (Loshchilov & Hutter, 2019) 优化器进行训练,批量大小为 100,训练周期为 200。在 Tiny-ImageNet 上,除学习率为 0.2 和训练周期为 400 个周期外,训练设置与 CIFAR100 中的设置相似。在 ImageNet-1K 上,我们使用 PyTorch风格的设置对 ResNet18、ResNet34 和 ResNet50 进行 100 个训练周期的训练。实验实现细节在附录 A.3 中提供。

表1和图1显示,在CIFAR100上,我们的方法优于现有方法。使用我们的方法训练后,ResNet 18和ResNeXt50相对于第二好的结果分别实现了0.28%和0.58%的准确度提升。类似地,基于ViT的方法达到了最高的分类准确度,分别为84.33%和83.54%,并且比之前最好的方法提高了1.66%和0.24%。在Tiny-ImageNet数据集上,我们的AdAutoMix在提升ResNet18和ResNeXt50的分类性能方面,与第二好的方法相比,实现了1.86%和2.17%的显著提升。此外,表1还显示,在大型数据集ImageNet-1K上,AdAutoMix实现了0.36%的准确度提升(对于ResNet 18)、0.3%的准确度提升(对于ResNet 34)和0.13%的准确度提升(对于ResNet 50)。

4.1.2、精细分类

在CUB-200、FGVC-Aircrafts和Stanford-Cars数据集上,我们使用具有动量为0.9、权重衰减为0.0005、批量大小为16,200个epochs、学习率为0.001、通过余弦调度器动态调整的SGD优化器对预训练的ResNet18、ResNet50和ResNeXt50进行微调。表2中的结果显示,AdAutoMix实现了最佳性能,并显著提高了普通模型的性能(在CUB-200上提高了3.20%/2.19%,在Aircraft上提高了1.5%/2.06%,在Cras上提高了2.87%/1.44%),这表明AdAutoMix在更具挑战性的场景中也很稳健。

4.2、校准

深度神经网络(DNNs)在分类任务中容易过度自信。混合方法可以有效缓解这个问题。为此,我们在CIFAR100数据集上计算了各种混合方法的预期校准误差(ECE)。从图4中的实验结果可以看出,与现有方法相比,我们的方法实现了最低的ECE,即3.2%。此外,我们在附录A.5中提供了更多的实验结果,详见表6。

4.3、鲁棒性

我们在CIFAR100-C(Hendrycks & Dietterich,2019)上进行了实验,以验证对数据污染的鲁棒性。我们手动生成了一个受污染的数据集,包括19种不同的污染类型(噪声、模糊、雾、亮度等)。我们将AdAutoMix与一些流行的混合算法进行比较:CutMix、FMix、PuzzleMix和AutoMix。表4显示,我们的方法在清洁和受污染的数据上都实现了最高的识别准确率,即相对于AutoMix,分类准确率提高了1.53%和0.40%。我们进一步研究了AdAutoMix对FGSM(Goodfellow等,2015)白盒攻击的鲁棒性,该攻击的epsilon ball遵循8/255ell_inftyepsilon ball遵循(Zhang等,2017)。如表格4所示,我们的AdAutoMix显著优于现有方法。

4.4、遮挡鲁棒性

为了分析AdAutoMix对随机遮挡的鲁棒性(Naseer等,2021),我们使用不同遮挡比例(0-100%)随机遮挡CIFAR100和CUB200数据集中的图像,构建图像集。我们将生成的遮挡图像输入到两个分类器中:Swin-Tiny Transformer和ResNet-50,并使用各种Mixup模型进行训练,以计算测试准确率。从图5和附录A.6中的表7中的结果可以看出,AdAutoMix在不同遮挡比例下都实现了最高的准确率。

4.5、迁移学习

我们进一步研究了AdAutoMix为下游分类任务所学习特征的迁移能力。除了训练100个epochs外,我们在CUB-200和Stanford-Cars上使用4.1.2小节中的实验设置进行迁移学习。使用在ImageNet-1K上训练的ResNet50进行微调,以进行分类。表3显示,AdAutoMix实现了最佳性能,这证明了我们的方法在下游任务中的有效性。

4.6、消融实验

在AdAutoMix中,四个超参数,即输入图像的数量N、权重α、β和混合比率λ,对于实现高性能非常重要。为了节省时间,我们在ResNet 18上使用我们的AdAutoMixup进行了200个epoch的训练。不同α、β、N和λ下ResNet 18的准确率在图6(a)、(b)、(c)和(d)中展示。同时,表9和表10在附录A.8中列出了不同λ和N下AdAutoMixup的分类准确率。默认情况下,AdAutoMix在各种数据集上取得了最佳性能,即N=3,α=0.5,β=0.3和λ=1。此外,两个正则化项 L m c e ( ψ W , y m i x ​ ) L_{mce}(ψW, ymix​) Lmce(ψW,ymix) L a c e ( ψ W , Y ) L_{ace}(ψW, Y) Lace(ψW,Y),试图提高分类器的鲁棒性,另外两个正则化项 L c o s i n e L_{cosine} Lcosine L a m c e ( ψ W ^ , Y ) L_{amce}(ψŴ, Y) Lamce(ψW^,Y),旨在避免AdAutoMix中图像固有意义的崩溃。因此,我们进行实验以评估每个模块对分类器性能提升的作用。为了便于描述,我们从AdAutoMix中移除了这四个模块,并将结果方法称为基本AdAutoMix。然后,我们逐步引入两个模块 L m c e ( ψ W , Y ) L_{mce}(ψW, Y) Lmce(ψW,Y) L a c e ( ψ W , Y ) L_{ace}(ψW, Y) Lace(ψW,Y),以及两个模块 L a m c e ( ψ W ^ , Y ) L_{amce}(ψŴ, Y) Lamce(ψW^,Y) L c o s i n e L_{cosine} Lcosine,并计算分类准确率。表5中的实验结果表明, L m c e ( ψ W , y m i x ​ ) L_{mce}(ψW, ymix​) Lmce(ψW,ymix) L a c e ( ψ W , Y ) L_{ace}(ψW, Y) Lace(ψW,Y)使分类器准确率提高了约0.66%。然而,其他两个正则化项对分类器性能的改进并不显著。

5、结论

在本文中,我们提出了AdAutoMixup,这是一个框架,通过对抗方式联合优化目标分类器和混合图像生成器。具体来说,生成器生成困难的混合样本以增加分类损失,而分类器基于困难样本进行训练以改善泛化能力。此外,生成器可以处理多个样本混合的情况。在六个数据集上的实验结果证明了我们的方法的有效性。

附录A

A.1 数据集信息

我们简要介绍本文中使用的图像数据集。

(1) CIFAR-100 (Krizhevsky et al., 2009)包含50,000个训练图像和10,000个测试图像,分辨率为32×32,有100个类别。

(2) Tiny-ImageNet (Chrabaszcz et al., 2017)包含10,000个训练图像和10,000个验证图像,分为200个类别,分辨率为64×64。

(3) ImageNet-1K (Krizhevsky et al., 2012)包含1,281,167个训练图像和50,000个验证图像,分为1000个类别。

(4) CUB-2002011 (Wah et al., 2011)包含11,788张来自200种野生鸟类的图像。

(5) FGVC-Aircrafts (Maji et al., 2013)包含10,000张飞机类别的图像,Stanford-Cars (Krause et al., 2013)包含8,144个训练图像和8,041个测试图像,分为196个类别。

A.2 实验超参数细节

在我们的工作中,特征层l设置为3,动量系数从ξ=0.999开始,并以余弦曲线增加到1。此外,AdAutoMix在所有实验中都使用相同的超参数集,具体如下:α=0.5,β=0.3,λ=1.0,N=3或N=2。

A.3 实验实现细节

在CIFAR100上,对于大小为32×32的图像,我们使用RandomFlip和RandomCrop进行基本数据增强,并添加4像素填充。对于ResNet 18和ResNeXt50,我们使用以下实验设置:SGD优化器,动量为0.9,权重衰减为0.0001,批大小为100,训练800个epochs;基本学习率为0.1,通过余弦调度器动态调整;使用CIFAR版本的ResNet变体,即用3×3卷积替换7×7卷积和MaxPooling。对于基于ViT的方法(例如Swin-Tiny Transformer)的训练,我们将图像调整为224×224,并使用AdamW优化器进行训练,权重衰减为0.05,批大小为100,总训练200个epochs。基本学习率为0.0005,通过余弦调度器动态调整。对于ConvNeXt-Tiny的训练,图像保持32×32分辨率,我们基于ViT方法的设置进行训练,但基本学习率设置为0.002。对于CIFAR上的ResNet 18和ResNeXt50,α和β设置为0.5和0.3。

在Tiny-ImageNet上,我们使用RandomFlip和RandomResizedCrop进行64×64的基本数据增强。除了学习率为0.2和训练400个epochs外,其余训练设置与在CIFAR100上使用的设置相似。

在ImageNet-1K上,我们采用PyTorch风格:使用SGD优化器训练100个epochs,批量大小为256,基本学习率为0.1,SGD权重衰减为0.0001,SGD动量为0.9。

在CUB-200、FGVC-Aircrafts和Stanford-Cars上,我们采用在ImageNet-1k上官方PyTorch预训练的模型作为初始化,使用SGD优化器,动量为0.9,权重衰减为0.0005,批量大小为16,训练200个epochs,基本学习率为0.001,通过余弦调度器动态调整。对于α和β,我们将其设置为0.5和0.1。

A.4 其他MiXUP实验的细节

您可以通过以下链接访问实验设置的详细信息:https://github.com/WestlakeAI/openmixup。他们还提供了大多数现有Mixup方法的开源代码。

A.5 校准结果

A.6 各种MiXUP方法在遮挡图像集上的准确度

A.7 效率与准确性的曲线

各种MiXup数据增强方法的训练时间与准确度的关系如图9所示。AdAutoMix需要更多的计算时间,但在不同数据集上使用不同ResNet架构时,它始终优于之前最先进的方法。

A.8 AdAutoMix模块实验

表8列出了逐步增加正则化项后我们的AdAutoMix的准确率。实验结果表明,每个正则化项都有助于提高AdAutoMix的鲁棒性。

表9显示了具有不同λ值的AdAutoMix的准确率。实验结果表明,默认情况下,λ=1的AdAutoMix在CIFAR100数据集上实现了最佳性能。

表10显示了具有不同输入图像数量N的AdAutoMix的准确率。从表10中可以看出,在CIFAR100上,N=3的AdAutoMix实现了最高的准确率。

A. 9 AdAutoMix与Adversarial方法训练的ResNet-18的准确度

图10显示了CIFAR100上由我们的AdAutoMix和带有对抗训练的ResNet-18的训练准确度。实验结果表明,带有对抗训练的AdAutoMix在CIFAR100数据集上实现了更高的分类准确率,这表明提出的对抗性框架能够生成更难的样本以提高分类器的鲁棒性。

A. 10 与其他对抗性数据增强的比较

我们进一步将Mixup(Zhang等,2017)和我们的AdAutoMix与现有的对抗性数据增强方法进行了比较,例如DADA(Li等,2020)、ME-ADA(Zhao等,2020)和SAMix(Zhang等,2023)。表11描述了各种方法的分类准确度。表11中的实验结果表明,我们的AdAutoMix优于现有的对抗性数据增强方法,并在CIFAR100数据集上实现了最高的准确率。

猜你喜欢

转载自blog.csdn.net/hhhhhhhhhhwwwwwwwwww/article/details/135335048
今日推荐