M³NAS：低剂量CT去噪的多尺度、多级记忆高效神经结构搜索

论文地址：https://ieeexplore.ieee.org/document/9936653

Abstract

降低计算机断层扫描（CT）中的辐射剂量可以大大降低对公众健康的潜在风险。然而，来自剂量减少的CT或低剂量CT（LDCT）的重建图像遭受严重的噪声，这损害了随后的诊断和分析。最近，卷积神经网络在从LDCT图像中去除噪声方面取得了很有希望的结果。所使用的网络架构要么是手工制作的，要么是在传统网络（如ResNet和U-Net）之上构建的。神经网络架构搜索（NAS）的最新进展表明，网络架构对模型性能有着显著的影响。这表明当前用于LDCT的网络架构可能是次优的。因此，在本文中，我们首次尝试将NAS应用于LDCT，并提出了一种用于LDCT去噪的多尺度、多级内存高效NAS，称为M³NAS。一方面，所提出的M³NAS融合了不同尺度单元提取的特征，以捕捉多尺度图像的结构细节。另一方面，所提出的M³NAS可以搜索混合小区和网络级别的结构，以获得更好的性能。此外，M³NAS可以有效地减少模型参数的数量，提高推理速度。在两个不同数据集上的大量实验结果表明，与几种最先进的方法相比，所提出的M³NAS可以获得更好的性能和更少的参数。此外，我们还验证了多尺度和多层次结构用于LDCT去噪的有效性，并对不同配置的超级网络进行了进一步的分析。

I. INTRODUCTION

如今X射线计算机断层扫描（CT）在医学领域得到了广泛的应用。由于CT扫描产生的辐射可能对人体造成不可逆的损伤，越来越多的研究人员正在关注低剂量CT（LDCT），这是众所周知的尽可能低的合理可实现原则或ALARA原则[1]。降低辐射剂量的最常见方法是通过降低工作电流来减少X射线通量。随着辐射剂量的降低，成像质量受到严重噪声和伪影的污染，这会影响后续的临床诊断。在LDCT中实现令人满意的图像质量仍然是一个活跃且具有挑战性的研究问题。

为了解决这个问题，在过去的十年里开发了许多算法[2]-[5]。这些方法通常可分为三类：1）正弦图域滤波，2）迭代重建，以及3）图像后处理。正弦域过滤使用特定的滤波器直接处理原始数据或对数变换数据，然后使用滤波反投影（FBP）进行图像重建。典型的方法包括结构滤波[2]、双边滤波[3]和惩罚加权最小二乘法[6]。然而，一旦正弦图中的边缘被平滑，这些类型的方法通常会遭受空间分辨率的损失。迭代重建在抑制噪声和伪影方面是有效的。作为LDCT的代表性方法，基于模型的迭代重建方法重复执行前向和后向投影，并计算图像域[4]、[7]、[8]中的正则化子。因此，迭代重建方法的计算负担是巨大的，这阻碍了其在临床应用中的广泛应用。此外，这些方法通常难以访问原始数据，因为用户通常无法获得扫描仪几何形状和数据校正的细节。

与上述两类明显不同的是，图像后处理方法是一种有效的替代方法，不依赖于原始数据，可以很容易地集成到当前的CT管道中。受备用表示思想的启发，几种经典的图像去噪算法，如非局部手段、字典学习和块匹配3D（BM3D）已经获得了最先进的性能[9]-[12]。然而，与传统的自然图像去噪中的假设相反，LDCT图像中的噪声和伪影不服从任何统计分布，无法准确确定。这使得这些图像去噪方法具有一定的局限性。

最近，深度学习（DL）在计算机视觉的许多领域受到了越来越多的关注，包括对象检测[13]，[14]，语义分割[15]和图像恢复[16]，[17]。在LDCT去噪领域，已经提出了越来越多的基于DL的方法[18]–[20]。由于基于DL的后处理方法在计算上是高效的，并且不需要对噪声分布进行任何假设，因此它们已成为研究的热点。这种方法通常使用经典或修改的端到端网络架构，并将配对数据用于监督学习。典型的网络架构包括VGG[21]、AlexNet[22]、ResNet[23]、DenseNet[24]和U-Net[15]。然而，关于网络架构的设计及其对去噪性能的相应影响，目前还没有进一步的研究。所有这些网络都是手工制作的，并且受到研究人员经验和可用计算资源的限制。人工设计的网络通常面临两个主要问题。首先，由于目标数据集的差异，需要付出大量努力来根据数据的特征选择合适的网络结构。其次，很难在网络的规模和性能之间取得平衡。

与手动设计的方法相比，不依赖于专家经验和知识的神经结构搜索（NAS）在图像分类[25]-[27]和分割[28]-[31]领域引起了人们的极大兴趣，并取得了具有竞争力的性能。目前的NAS方法可以大致分为强化学习[32]、进化算法[33]、[34]或基于梯度的方法[25]、[26]、[30]、[31]。前两种在计算上是昂贵的，并且可能不适合像素级去噪任务。

在本文中，受[25]、[29]、[31]思想的启发，我们开发了一个包含所有候选操作的嵌套式超网，如图1所示，以扩大搜索空间，并在内部小区和外部网络级别上应用连续松弛方法[25]。一旦搜索阶段结束，就采用Dijkstra算法来找到具有相应小区的最优子网。

我们的贡献总结如下：

我们提出了一种多尺度、多层次的高效记忆NAS，称为M³NAS，用于低剂量CT去噪。据我们所知，这是首次尝试将NAS扩展到LDCT去噪。
我们提出了一种多尺度融合单元，以在搜索阶段利用从不同尺度提取的特征。在每个小区中，我们还使用信道分割操作来有效减少网络参数的数量，同时确保网络性能。
我们提出了一个多级超级网络，它集成了小区和网络级搜索，以扩大搜索空间。这使算法能够从图1中定义的超级网络中轻松找到更高效的子网，同时处理不同剂量水平的数据。在连续松弛方法下，所提出的M³NAS的训练可以在2个RTX 8000 GPU天内进行。
大量实验表明，与几种最先进的模型相比，我们的方法搜索的网络架构提供了更好的视觉效果，并降低了网络的规模。

本文是会议文件[35]的延伸。与会议文件相比，我们做了以下主要扩展。首先，增加了关于该方法的更详细的描述和更多的实验配置。其次，我们进行了模型研究，以显示我们的方法在各种参数和初始化下的性能和稳定性。第三，增加了更多相互竞争的方法和消融研究。

本文的其余部分组织如下。在第二节中，回顾了基于DL的LDCT去噪和NAS的最新进展。然后，我们在第三节中详细阐述了所提出的M³NAS的具体实现。第四节介绍了实验设计和代表性结果，然后在第五节中进行了总结。

在这里插入图片描述

II. RELATED WORKS

A. Deep Learning based LDCT Image Denoising

近年来，由于卷积神经网络的快速发展，LDCT图像去噪算法的性能得到了显著提高。作为开创性的工作，Chen等人将著名的超分辨率CNN或SRCNN[36]引入LDCT恢复，然后提出了一种用于LDCT的残差编码器-解码器CNN（RED-CNN），并取得了令人鼓舞的结果。Kang等人[37]将小波变换引入U-Net[30]。Bao等人[38]提出了一种卷积稀疏编码方法，该方法可以避免由补丁聚合引起的伪影。Wu等人[39]提出了一种无标签的自学习方法。Xia等人[40]提出了一种基于图的网络，该网络利用了图像和流形空间的特征。随着生成对抗性网络（GANs）的出现，Yang等人提出将Wasserstein GANs和感知损失相结合，称为WGAN-VGG，可以恢复CT图像中的斑点状纹理[41]。Shan等人通过基于迁移学习的高效训练策略将该模型扩展到3D LDCT[42]。他们提出了一种模块化自适应处理神经网络（MAP-NN），该网络使用模块化神经网络执行端到过程映射，并允许放射科医生以特定任务的方式优化去噪深度[5]。耿等人提出了一种内容噪声互补学习（CNCL）策略，以互补地学习图像数据集的相应内容和噪声[43]。受计算机视觉成功应用的启发，在LDCT中引入了一种注意力机制，以检索长距离具有强关系的像素，并取得了有希望的结果[44]。此外，CycleGAN用于减轻获取配对训练样本的难度[45]。最近，随着transformer在计算机视觉任务中的应用的增多，为LDCT任务带来了新的机遇。Zhang等人[46]提出了一种双路径transformer，该transformer在LDCT任务中将有噪声的LDCT图像分解为高频和低频部分，以鼓励网络生成高质量的图像。Wang等人[47]提出了一种无卷积的T2T视觉transformer结构，用于捕获具有长空间依赖性的上下文信息。与这些手工制作的网络架构相比，我们的工作不依赖于专家经验来设计网络架构，仍然可以获得更好的LDCT去噪性能。

B. Network Architecture Search (NAS)

NAS致力于实现神经网络架构设计的自动化，从而大大减轻这项在很大程度上依赖于研究人员实践经验的繁琐工作。一些研究已经提出使用进化算法中的基本操作来优化网络架构[33]。强化学习方法，例如Q学习[32]和策略梯度[48]，旨在训练递归神经网络作为控制器来生成特定的体系结构。

与上述两种在搜索阶段计算密集且耗时的策略不同，可微架构搜索（DARTS）采用连续松弛来使用梯度下降对小区架构进行高效搜索，这使得在单个GPU上训练NAS网络成为可能。

基于基本的DARTS，已经为各种任务做出了许多努力。例如，在[29]中，Liu等人提出了Auto DeepLab，用于在分层架构搜索空间中进行搜索，以进行语义图像分割。

Ghiasi等人提出了NAS-FPN来学习用于对象检测的可扩展特征金字塔结构[49]。在[50]中，提出了用于自然图像去噪的HiNAS。在医学成像领域，大多数工作都是针对图像分割和分类[30]，[31]提出的。只有两项与我们最相关的工作专门用于使用DARTS[51]、[52]的MRI重建。然而这两种方法都采用了与残差块相结合的简单的普通网络架构，其仅搜索可重复的小区结构，而忽略外部网络级结构的影响。此外，如[53]所示，融合从不同尺度提取的特征有助于恢复更多细节。同时，在手动设计网络时，缺乏实践经验的人会导致设计的结构具有一定程度的冗余，并增加额外的网络参数数量。尽管存在上述缺点，但这些工作在医学图像重建领域显示出了令人鼓舞的潜力。

在这项研究中，在这些开创性工作[25]、[29]、[31]的推动下，我们首次尝试在内部细胞和外部网络级搜索和多尺度特征融合的帮助下，将NAS集成到LDCT去噪中。我们的工作遵循可微分NAS方法的公式。与其他NAS模型相比，我们的工作是联合搜索单元和网络架构。我们还构建了一个类似嵌套的超级网络来扩大搜索空间，使模型能够捕获更多不同尺度的特征。

III. METHOD

A. Problem Formulation

假设 $I_{LD} \in R^{m×n}$ 是尺寸为 $m \times n$ 的LDCT图像， $I_{ND} \in R ^{m×n}$ 是相应的正常剂量CT（NDCT）图像，则LDCT图像恢复被公式化为寻找函数 $f$ 的问题，该函数将LDCT图像映射到其正常剂量对应物：
$\underset{f}{\arg \min } \mathcal{L}_{\mathrm{MSE}}\left(\boldsymbol{I}_{\mathrm{LD}}, \boldsymbol{I}_{\mathrm{ND}}\right)=\frac{1}{m n}\left\|f\left(\boldsymbol{I}_{\mathrm{LD}}\right)-\boldsymbol{I}_{\mathrm{ND}}\right\|_F^2, \tag{1}$
式中， $\mathcal{L}_{\mathrm{MSE}}$ 表示广泛使用的均方误差（MSE），而 $‖·‖^2_F$ 表示Frobenius范数。

我们没有找到显式函数 $f$ ，而是使用卷积神经网络以数据驱动的方式自动实现这一过程。与传统的人工设计神经网络不同，我们使用NAS方法来寻找合适的网络。也就是说，我们试图使用一种自动化的方法来寻找 $f$ 。

B. The Proposed M³NAS

与[25]、[29]类似，在我们的M³NAS中，采用基于梯度的策略从嵌套的类超级网中搜索基本单元架构和子网架构。目前的研究为低级别任务提供了有限的网络架构选择，特别是对于医学图像[50]，[51]。受现有基于DL的图像恢复[54]的启发，多尺度变换可以从不同的空间分辨率中提取特征，并有助于在多个尺度上恢复更多细节。

根据[29]、[31]中的思想，提出了一种更灵活的LDCT图像恢复搜索空间。我们通过控制单元的数量来改变它们的优先级，构建了一个嵌套的类超级网络，如图1（a）所示，它可以分为三个阶段：1）编码阶段，2）特征变换阶段，和3）解码阶段。在编码阶段，使用各种候选操作对从不同尺度提取的细节进行编码。我们让特征压缩单元作为大多数单元来构建网络有更大的机会通过下采样操作对特征进行编码。随着网络深度的增加，网络结构变得越来越复杂。在相同的网络层下，每次网络深度增加一个，特征图的大小就会减少到一半。在特征变换阶段，对多尺度特征进行提取和滤波，以抑制噪声和伪影。我们让细胞具有相同的优先级，以便从不同尺度提取的特征可以有效地融合和转移。在这个阶段，网络深度不会增加，只转换特征。在解码阶段，对前一阶段处理的特征进行解码，以使用候选操作以最佳解码策略恢复细节。我们让特征扩展单元作为多数单元，并通过上采样操作来执行特征解码。在这个阶段，主要进行特征融合，并且随着层数的增加，网络深度逐层减小。同时，与编码阶段相对应，特征的数量逐层减少到前一层的一半。在每个阶段，采用多尺度融合块来充分利用多尺度特征。为了保持输入和输出的特征大小一致，我们添加了一对3×3卷积，如图1（a）中的粉色框所示。

接下来，我们首先介绍如何使用连续松弛搜索基本单元，然后展示如何从单元构建基本块，最后描述如何形成多级超网。

1） Basic Cell：我们定义了三种不同类型的细胞用于多尺度图像特征提取。为了加快网络搜索的效率并减少网络参数的数量，我们在每个小区中引入了信道分割操作，这与PC-DARTS[55]类似。如图6所示，如图1（c）所示，我们以 $n \times m \times c$ 的特征图为例，其中 $c$ 表示特征大小。我们将输入特征分为两组，保持 $c \times (1 - 1/ k)$ 维特征不变，剩余的 $c \times 1/ k$ 维特征被发送到内部单元搜索阶段。在这里，我们在所提出的方法中设置k=4。在搜索阶段之后，我们将之前获得的所有特征连接起来。最后，我们使用信道混洗操作随机混洗信道，以充分利用从不同候选操作中提取的所有特征。

在这里插入图片描述

在[25]之后，我们在内部小区搜索阶段使用连续松弛策略来搜索适当的子小区。通常，超级单元由具有P个节点的有向无环图（DAG）表示。图2（a）和（b）分别显示了包含所有候选操作的超级单元和优化结果的一个示例。为了便于说明，我们在图2中只显示了三个节点。我们的目标是通过单元格将输入 $X_{in}$ 映射到输出 $X_{out}$ 。一个单元格的输出表示如下：
$\boldsymbol{X}_{\text {out }}=\operatorname{Concat}\left(\boldsymbol{N}_1, \boldsymbol{N}_2, \ldots, \boldsymbol{N}_P\right) \tag{2}$
其中 $\boldsymbol{N}_i$ 表示第 $i$ 个节点的输出，并且被定义为 $\boldsymbol{N}_i=\sum_{\boldsymbol{N}_j \in \Omega_i} \bar{O}_{j \rightarrow i}\left(\boldsymbol{N}_j\right), i=1,2, \ldots, P, j<i . \Omega_i$ 是节点 $i$ 之前的所有节点的集合。 $\bar{O}_{j \rightarrow i}$ 是从节点 $j$ 到节点 $i$ 的所有候选操作的集合，作为

$\bar{O}_{j \rightarrow i}\left(N_j\right)=\sum_{t=1}^T \alpha_{j \rightarrow i}^t O^t\left(\boldsymbol{N}_j\right), \tag{3}$
其中 $\left\{O^1, O^2, \ldots, O^T\right\}$ 表示一组 $T$ 个候选运算， $\alpha_{j \rightarrow i}^t$ 表示对应的候选操作的权重。为了简单起见，我们定义 $\boldsymbol{N}_0=\boldsymbol{X}_{\text {in }}$ ，当 $i > 0$ 时， $\Omega_i=\left\{\boldsymbol{N}_0, \boldsymbol{N}_1, \ldots, \boldsymbol{N}_{i-1}\right\}$ ，这意味着第一个节点只接收 $\boldsymbol{X}_{\text {in }}$ 作为输入，而其他节点接收所有先前的张量（包括 $\boldsymbol{X}_{\text {in }}$ ）作为输入。根据[25]，在所有可能的操作之后应用softmax函数，以使搜索空间连续： $\operatorname{Softmax}\left(\alpha_{j \rightarrow i}^t\right)=\frac{\exp \left(\alpha_{j \rightarrow i}^t\right)}{\sum_{t=1}^T \exp \left(\alpha_{j \rightarrow i}^t\right)}$ 。在搜索之后，我们保留具有最大节点权重 $\alpha$ 的操作，同时放弃其余操作，并最终生成用于网络训练的最终节点结构。

基于最近关于基于DL的LDCT图像恢复的工作，表I中列出了几种典型的候选操作。每个操作从ReLU层开始，然后是1×1 Conv层，以保持特征数量的一致。批处理规范化被排除在外，因为它在面向PSNR的任务中表现不佳[56]。

在这里插入图片描述

2）Multi-Scale Block：为了更好地利用从不同类型的细胞中提取的特征，我们构建了一个多尺度块。在不同的尺度下，模型可以捕捉不同的图像特征，这将有助于模型恢复更好的图像细节[57]。然而，并非所有来自不同比例的特征在一个块中都有显著贡献。因此，我们添加架构权重β来选择贡献最大的单元。如图1（a）和（b）所示在超级网定义为：
$\begin{aligned} \boldsymbol{Z}_d^l & =\beta_{(d-1) \rightarrow d}^l f_{\mathrm{e}}\left(\boldsymbol{Z}_{d-1}^{l-1} ; \alpha_{\mathrm{e}}\right)+\beta_{d \rightarrow d}^l f_{\mathrm{t}}\left(\boldsymbol{Z}_d^{l-1} ; \alpha_{\mathrm{t}}\right) \\ & +\beta_{(d+1) \rightarrow d}^l f_{\mathrm{c}}\left(\boldsymbol{Z}_{d+1}^{l-1} ; \alpha_{\mathrm{c}}\right), \end{aligned} \tag{4}$
其中 $Z_d^l$ 是位于层 $l$ 中的单元的输出，深度 $d$ 。 $f_{\mathrm{e}}, f_{\mathrm{t}}$ 和 $f_{\mathrm{c}}$ 分别表示特征扩展单元、特征转移单元和特征压缩单元。 $\rightarrow d$ 表示从深度 $d + 1$ 到 $d$ ，其中 $\in\{1,2, \ldots, D\}$ ， $d$ 是超网的深度。 $\alpha$ 和 $\beta$ 分别是单元中候选操作的权重和块中不同单元的权重。应该注意的是，并非所有的块都具有如在网络的顶部和底部所示的相同的小区。同时，应用softmax函数将 $\beta$ 归一化为 $\operatorname{Softmax}(\beta)=\frac{\exp (\beta)}{\sum_{\beta \in \mathcal{B}} \exp (\beta)}$ ，其中 $\mathcal{B}$ 是当前块中的候选单元格的集合。

3）Multi-Level Super-Net：在我们的模型中，随着网络层数增加一层，特征的数量在编码阶段增加了一倍。在特征变换阶段，特征的数量保持不变。在解码阶段，网络层的数量增加了一层，特征的数量减少了一半。在同一层中，随着网络深度增加一，图像大小在编码阶段减少了一半。在特征变换阶段，我们保持图像大小不变。在解码阶段，随着网络深度增加一，图像大小增加一倍。通过将基本块堆叠到嵌套的类网络中，可以充分利用为图像提取的多尺度特征。每个块从超网中的先前块接收融合的特征，然后将处理后的特征输出到后续块。在这种架构的帮助下，超级网络可以提供更广泛的搜索空间，覆盖从网络、块和小区到操作的不同规模，这使得NAS算法很容易搜索高效的网络架构。

M³NAS具有以下多级功能：

Cell-level. 通常，为了最大化搜索空间，通常会使不同块中的单元格具有不同的结构。然而，考虑到有限的计算资源，我们让不同块中的相同类型的单元使用相同的结构，并且同一块中的三种类型的单元具有不同的结构。一旦优化，在单元的每个边缘上选择具有最大α的候选操作。

Network-level. 为了优化超级网络并确定网络级别的网络架构，我们将这个超级网络转换为DAG。然后我们可以构建连接输入和最终输出的所有路径。通过使用Dijkstra算法计算累积的β，选择前K条路径作为最佳子网架构。在本文中，在整个实验中，K被设置为5。

C. Loss Functions

我们使用两个损失函数来验证该模型在不同损失函数下的性能。首先，我们使用传统的均方误差损失：
$\mathcal{L}_1=\mathcal{L}_{\mathrm{MSE}}\left(f\left(\boldsymbol{I}_{\mathrm{LD}}\right), \boldsymbol{I}_{\mathrm{ND}}\right) . \tag{5}$
然后我们使用一个混合损失函数，该函数定义为：
$\mathcal{L}_2=\mathcal{L}_{\mathrm{MSE}}\left(f\left(\boldsymbol{I}_{\mathrm{LD}}\right), \boldsymbol{I}_{\mathrm{ND}}\right)+\lambda \mathcal{L}_{\mathrm{PL}}\left(f\left(\boldsymbol{I}_{\mathrm{LD}}\right), \boldsymbol{I}_{\mathrm{ND}}\right), \tag{6}$
其中被称为PL的感知损失被定义为
$\mathcal{L}_{\mathrm{PL}}\left(f\left(\boldsymbol{I}_{\mathrm{LD}}\right), \boldsymbol{I}_{\mathrm{ND}}\right)=\left\|\phi\left(f\left(\boldsymbol{I}_{\mathrm{LD}}\right)\right)-\phi\left(\boldsymbol{I}_{\mathrm{ND}}\right)\right\|_2^2$ ，并且 $\phi$ 是具有固定参数的预训练VGG-16网络。 $\lambda$ 是一个加权系数，在本文中根据经验设置为 $\times 10^{-4}$ 。

D. Optimization

与其他工作[29]、[31]类似，采用连续松弛策略来优化小区和网络参数。已经证明，该方法可以使用梯度下降算法有效地优化这些参数。在这里，我们在DARTS中使用一阶近似，并将训练集拆分为train-data和arch-data。在这里，我们从训练集中选择200幅图像作为arch-data。在train-data上计算（5）和（6）中的损失函数以优化网络参数，在arch-data上计算损失函数以最优化体系结构权重；这两个过程是交替优化的。

IV. EXPERIMENT

A. Datasets

为了验证我们提出的模型的性能，我们使用了梅奥诊所2020年发布的低剂量CT图像数据。该数据集包含胸部和腹部不同辐射剂量的CT扫描数据，便于我们进一步验证模型的稳健性。

1）Chest Data：胸部数据涉及50名辐射剂量为10%的患者。我们随机选择35名患者的11548张图像作为训练集，5名患者的1706张图像作为val集，10名患者的3394张图像作为测试集。特别地，我们从训练集中选择200幅图像作为arch-data。

2）Abdomen Data：腹部数据涉及50名患者，辐射剂量为25%。我们随机选择35名患者的5128张图像作为训练集，5名患者的754张图像作为val集，10名患者的1498张图像为测试集。在这里，我们还从训练集中选择200幅图像作为arch-data。

在搜索阶段、训练阶段和测试阶段，所有图像的大小都调整为256×256。在训练阶段，我们将数据集的每个值转换为Hounsfield单位（HU），低于-1000HU的值被截断为1000HU，然后我们对[0，1]之间的所有数据值进行归一化。有关这些数据的更多信息，请参阅[58]。

B. Implementation Details

在这项工作中，我们没有在搜索或训练阶段应用任何数据扩充方法。每个基本单元中的节点数设置为3。层数L和深度D分别设置为12和4。选择前5条路径以形成最佳子网架构。在搜索阶段，超级网络被训练了200个时期，批量大小为2。在训练阶段，搜索到的模型被训练了200个时期，批量大小为15。两个不同的Adam[59]优化器Optm_n和Optm_a分别用于优化超级网络中的网络参数和网络搜索阶段的架构权重。对于Optm_n使用余弦退火策略[60]，将初始学习率设置为1×10⁻⁴，并将衰减设置为1 x 10⁻⁷。对于Optm_a，初始学习率设置为1×10⁻⁴，其他配置设置为默认配置。现有研究表明，随着训练时期的增加，网络在小区搜索阶段倾向于选择跳跃连接，这会导致模型崩溃[26]，[61]。为了避免模型崩溃，采用提前停止将每个单元中的跳过连接数量限制为两个。为了更好地训练搜索阶段架构，我们确保网络只优化前8个时期的网络参数。在输出结果相对稳定后，同时对网络参数和架构权重进行优化。经过优化，我们可以获得特定数据集对应的网络架构。我们的代码基于PyTorch 1.7，在具有32 GB RAM和NVIDIA RTX 8000 GPU的Windows 10上执行。

C. Comparison with State-Of-The-Art Methods

为了验证所提出的方法的性能，我们进行了两种不同剂量水平的实验：10%和25%。比较了几种最先进的LDCT恢复方法，如BM3D[62]、DnCNN[16]、MAP-NN[5]、WGANVGG[19]、CNCL[43]和RED-CNN[53]。除了损失函数外，所有模型都是根据原始论文实现的。在这里，我们在图3、4和5中显示了几组不同方法的实验结果及其相应的定量指标，其中红色数字表示最佳结果，蓝色数字表示第二好结果。在第一部分中，我们只使用MSE损失来评估性能。对于基于GAN的方法，我们使用GAN损失和MSE损失的组合。表二列出了整个测试集的定量结果。可以看出，使用我们的方法搜索的网络在所有剂量水平的PSNR和SSIM方面都获得了最佳结果。根据目前的研究[18]，[41]，PSNR和SSIM都不能很好地判断图像质量。因此，在第二部分中，我们使用感知损失（称为PL）来保留更多的图像细节。我们可以看到，M³NAS可以保留更多的图像细节。为了进一步说明M³NAS的性能和图像细节恢复的视觉效果，图3和4给出了使用10%和25%剂量水平的不同方法重建的两个切片。图3和图4仅使用MSE损失。为了进一步证明PL损失对图像细节恢复的影响，图5中给出了在25%剂量水平下在不同网络上测试的一个切片。

在这里插入图片描述

对于不同剂量水平的数据，所有的方法都可以在一定程度上抑制伪影和噪声。在图3中，由于辐射剂量不是很低，噪声对图像质量的影响很小。我们发现BM3D方法倾向于获得模糊的结果。我们在MAP-NN、WGAN和CNCL中使用GAN损失，以便在细节上更好地恢复。其他方法在该剂量水平下获得了相对接近的结果，但我们的M³NAS在细节上获得了更好的恢复，并获得了箭头所示的更好的定量指标结果。随着剂量水平的降低，伪影和噪声变得严重，并且覆盖了大多数细节。在图4中，BM3D的结果中存在明显的条纹伪影。在DnCNN和MAP-NN的结果中，细节是模糊的，如图4所示。箭头所示的一些增强血管被平滑。RED-CNN和CNCL获得了与我们最接近的性能，但它们仍然受到一些来自可察觉的过度平滑效果的影响，这导致了空间对比度的损失。

在25%的剂量水平下，由于噪声对图像的影响很小，从图6中的差异图可以发现各种方法可以有效地去除该剂量下的噪声。但在箭头所指的某些领域，我们的方法仍然具有一定的优势。在10%的剂量水平下，噪声会极大地影响图像质量。通过图7中的差异图，我们可以清楚地发现，我们的方法在箭头所示的区域具有更好的性能。

在这里插入图片描述

总体而言，所提出的模型在减少伪影和保留细节方面都达到了最佳的视觉效果和定量结果。为了进一步评估损失函数对图像恢复的影响，我们在不同的模型中使用了PL损失，视觉结果如图5所示。由于PL损失的增加，尽管与仅使用MSE损失的结果相比，测试图像的PSNR值降低了，但图像中箭头指示的一些细节被更好地恢复。同时，我们的M³NAS取得了最好的测试结果，错误也可以在图8中找到。

在这里插入图片描述

D. Comparison of Network Parameters

为了评估搜索网络的复杂性，报告了参数的数量（模型大小）和每秒浮点运算（FLOP）。结果列于表III中。DnCNN是一个简单的普通CNN，由一个残差连接辅助。MAP-NN有一个参数共享生成器，这是一个轻量级模型。WGAN还使用了一个简单的生成器，因此其网络性能有限。CNCL使用大型生成器以获得更好的网络性能。使用我们的方法搜索的网络具有比RED-CNN和CNCL小得多的模型规模和FLOP。就在FLOP中，与RED-CNN和CNCL相比，我们的方法减少了50%。我们的模型在有效降低参数和FLOP的同时取得了最佳的实验结果。

在这里插入图片描述

E. Model Investigation

1） 架构分析：图9和图10显示了使用我们的方法对不同数据集的子网络架构和相应单元的结果。通过观察生成的网络结构，我们得出以下观察结果。首先，不同类型的卷积被包括在最终的子网络中，这证明了我们的模型在操作选择方面的强大能力。尽管可分离卷积在减少网络规模方面是有效的，而扩张卷积在扩大感受野方面表现出色，但仍选择正常卷积和跳过连接。其次，早期停止策略[26]，[50]，[52]很好地避免了模型崩溃，这意味着整个单元都充满了跳过连接。第三，搜索到的架构在解码阶段更复杂，这可能是因为网络在解码阶段需要更多的操作来更好地恢复图像细节。第四，网络深度受剂量水平和初始化参数影响。根据图9和图10中的实验结果，我们发现剂量水平越低，网络越有可能选择更深的网络。最后，针对不同剂量水平生成的网络架构是截然不同的。可能的原因在于，具有不同剂量水平的图像受到不同程度的伪影和噪声的污染，这可能对网络架构的选择产生重大影响。

在这里插入图片描述

2） 超级网络层数L的影响：为了评估超级网络层数的影响，我们分别用8层、10层和12层初始化超级网络。25%和10%剂量的LDCT图像为用作训练和测试集。其他参数和以前一样是固定的。整个测试集的统计定量结果如表IV所示。一个代表性切片的定性结果如图11所示。可以观察到，使用12层作为初始架构的结果比使用8层和10层的结果获得更好的视觉效果具有更少的伪影。L=12的结果比L=8和L=10的结果恢复了更多的细节。基于这一观察结果，我们的模型中的L被初始化为12。

在这里插入图片描述

3） 路径数量K的影响：我们评估路径数量K对形成最终网络的影响。实验中测试了三种不同数量的路径，包括4条、5条和6条。其他参数是固定的，并且L=12。统计定量结果列于表五中。当K=5时，搜索的网络获得最佳分数。使用具有不同路径数的网络处理的一个典型胸部切片如图12所示。很容易注意到，K=5的网络重建的结果可以更好地可视化结构细节，这也得到了定量度量的证实。基于这些结果，建议在给定特定数据集或超级网络架构时，路径的最佳数量可能会有所不同。

在这里插入图片描述

4） 深度D的影响：在我们的M³NAS中，深度D会影响图像的下采样率。当D＝4时，图像已经被下采样了16次。为了避免对非常小的特征使用不必要的计算资源，因此我们将D保留为其可能的最大值，以获得来自不同尺度的更多信息。

5） 通道分割操作的有效性：为了验证通道分裂的有效性，我们进行了消融实验。在200次历元迭代后，相同25%剂量数据集的不同实验结果如表VI所示。对于NAS方法，使用通道分割可以显著减少参数的数量，从而提高网络的效率。为了进一步验证性能改进是否来自NAS，而不是在通道分割方面，我们通过增加通道分割操作来修改RED-CNN的架构。实验结果表明，改进后的RED-CNN与M³NAS的网络性能仍有差距，这表明NAS在提高性能方面发挥着关键作用。

在这里插入图片描述

F. Stability and Transferability Analysis

为了进一步验证网络模型的稳定性和可转移性，我们考虑了四个方面。

1） 随机种子初始化：我们构建了三组实验来验证随机初始参数对搜索的网络结构和网络性能的影响。在这三组实验中，我们使用相同的数据集分区，同时在128×128图像上进行搜索和训练，最后在128×28图像上进行测试。表VII显示初始化种子具有一定的对网络搜索结构和性能的影响。对于图13中的网络结构，我们可以发现网络的总体结构是一致的，只有部分路径选择发生了变化。不同的初始化结果使得搜索网络的收敛方法和难度不同，从而产生不同的结果。从表VII中的量化指标来看，尽管结果有所波动，但表现始终良好。

在这里插入图片描述

2） 随机数据集分区：为了进一步验证随机数据集划分的网络稳定性，我们在搜索和训练阶段替换数据，同时固定网络的随机种子。在这里，我们设置了三个不同的数据分区用于搜索和训练。同时，与之前的一组实验类似，我们使用128×128的图像作为搜索、训练和测试数据。表八显示，不同的数据集分区对网络搜索结构和性能也有一定的影响。从图14中的网络结构来看，在某些部分选择了不同尺度的特征进行融合。从定量结果来看，搜索到的网络结构仍然具有良好的性能。

在这里插入图片描述

3） 随机路径初始化：根据之前的实验结果，我们可以发现大多数搜索网络倾向于保留深度=1的路径，我们进一步探索了在保留深度=1路径的同时随机生成路径的结构是否也具有类似的性能。为此，我们随机生成三组不同的网络结构。我们使用具有相同数据集分区的256×256，25%剂量的图像。所有这些子网都是以L=12、D=4、K=5的配置生成的。我们固定深度为1的路径，并随机生成其余四条具有不同比例的路径。生成的网络如图15所示。从表IX中的定量结果可以发现，随机生成的网络结果与搜索网络获得的结果仍有明显差距。因此，NAS对于提高网络性能具有重要意义。

在这里插入图片描述

4） 搜索的网络结构在不同图像大小上的可转移性：为了验证这种方法的可移植性，我们进行了以下实验。我们在搜索阶段使用128×128的图像，而不是256×256的图像。然后我们用256×256个图像对网络进行训练和测试。表X中的结果表明，使用低分辨率图像搜索的网络结构仍然具有良好的性能，这证明了搜索结构对不一致的训练和测试数据的鲁棒性。

在这里插入图片描述

V. CONCLUSION

在本文中，我们提出了一种用于低剂量CT去噪的基于多尺度和多级梯度的NAS。所提出的方法在小区和网络级别搜索网络架构。这提供了扩展的搜索空间，并且比传统的NAS方法更灵活、更高效。为了减少训练成本和网络参数的数量，我们在内部小区中使用信道分割操作。此外，为了利用多尺度特征，引入了三种不同的特征融合单元。搜索到的网络在具有不同剂量水平，它们在图像结构细节方面表现出比几种手工制作的最先进模型更好的性能。这反映了M³NAS的稳健性和有效性。此外，M³NAS的不同配置进一步说明了不同尺度特征对图像细节恢复的影响。

我们承认我们的方法有一些局限性。首先，尽管有DARTS，但由于我们扩大了搜索空间，因此训练需要时间和资源。同时，由于我们需要对模型进行两次训练，一次用于架构搜索，另一次用于参数优化，因此计算负担进一步加重。在本研究中，训练模型需要两天的GPU时间（RTX 8000）。另一个限制是，所提出的三个不同的单元具有相同的结构，这可能会限制可能的结果。在未来，设计一个更通用的搜索空间将是下一步。目前，现有的NAS方法主要集中在搜索一些基本的网络结构，但随着深度学习的快速发展，研究人员提出了越来越多新的复杂结构，如变换器、注意力块和图卷积。因此，如何在未来将这些结构与NAS方法相结合是一个重要的课题。尽管基于变换器的NAS方法[63]、[64]、注意力块[39]和图卷积[65]可以预期性能的提高，但降低NAS的计算复杂度以有限的计算资源为单个用户搜索此类复杂结构是一项挑战。这将是我们未来工作的一个潜在方向。

Multi-Scale and Multi-Level Memory-Efficient Neural Architecture Search for Low-Dose CT Denoising

M³NAS：低剂量CT去噪的多尺度、多级记忆高效神经结构搜索

Abstract

I. INTRODUCTION

II. RELATED WORKS

A. Deep Learning based LDCT Image Denoising

B. Network Architecture Search (NAS)