MLF-IOSC Multi-Level Fusion Network with Independent Operation Search Cell for Low-Dose CT Denoising

MLF-IOSC:用于低剂量CT去噪的具有独立操作搜索单元的多级融合网络

论文地址:https://ieeexplore.ieee.org/document/9963565/

项目地址:https://github.com/Robust-Jay/MLF-IOSC

Abstract

计算机断层扫描(CT)在临床医学中得到了广泛应用,低剂量CT(LDCT)已成为减少CT采集过程中潜在的患者伤害的流行手段。然而,LDCT加剧了CT图像中的噪声和伪影问题,增加了诊断难度。通过深度学习,人工神经网络对CT图像进行去噪引起了医学成像的极大兴趣,并取得了巨大成功。受神经结构搜索的启发,我们提出了一个使用独立运算搜索单元实现卓越LDCT降噪的框架,并引入拉普拉斯算子来进一步提高图像质量。采用基于补丁的训练,该方法可以有效地消除CT图像噪声,同时保留原始结构和细节,从而显著提高诊断效率,促进LDCT的临床应用。

I. INTRODUCTION

X射线计算机断层扫描(CT)在临床实践中得到了广泛的应用。X射线是一种穿透力强的高能射线,对人体有害[1],在CT扫描过程中减少X射线剂量的各种方法,即低剂量CT(LDCT)受到ALARA的欢迎和指导[2]。然而,这也增加了重建难度,因为较弱的x射线束通量增加了信号噪声,最终表现为重建的CT图像噪声。因此,消除噪声和提高CT成像质量对于促进LDCT应用和诊断效率至关重要。本文提出了一种基于神经网络的框架来消除LDCT图像噪声,同时保留原始图像的细节和结构。

近年来,许多优秀的算法被应用于提高低剂量CT图像质量,包括正弦图域滤波、迭代重建和图像后处理。正弦图域滤波使用正弦图域中的平均值[3]或中值[4]滤波器,并通过滤波后投影(FBP)重建CT图像。尽管这种方法需要最小的计算开销,但它对图像质量有负面影响。如果在正弦图域中去除噪声特征,可能会出现分辨率降低和边缘模糊。迭代重建基于投影矩阵[5]、[6]迭代重建CT图像。尽管这种方法在一定程度上解决了噪声和伪影的问题,但它需要相当大的计算开销,这使得它难以用于实际应用。图像后处理使用图像处理方法,如NLM[7]、K-SVD[8]和BM3D[9],以消除重建CT图像中的噪声和伪影。

人工神经网络(ANNs)也已被普遍用于图像处理。图像分类[10]、[11]、语义分割[12]、[13]、对象检测[14]、[15]和图像去噪[16]-[19]等领域得到了快速发展,特别是随着深度学习的发展。这种人工神经网络的特点是计算成本低,去噪效果好,非常适合解决LDCT噪声问题[20],[21]。

A. Neural Architecture Search

神经架构搜索(NAS)有助于在搜索空间中为特定任务自动选择合适的架构,而无需过多的人工干预和监督。Rapid NAS促进了许多领域的进一步发展,包括图像分类[22]、语义分割[23]、[24]、目标检测[25]、[26]等。早期的NAS方法使用进化算法[22]或强化学习[27],使用RNN作为强化学习控制器来生成网络结构。然而,这种方法通常需要数百或数千个GPU处理小时才能进行初始训练。Real等人[22]提出了SOTA算法,该算法以牺牲更多时间为代价,获得了比强化学习更好的结果;随后开发了ENAS[28]以提高NAS效率,使用权重共享来显著减少NAS计算时间需求。最近用于NAS的梯度下降方法已经变得流行,其中搜索方法可以根据其搜索空间大致分为两类:

1) 使用超级网络对搜索空间进行建模,通过定义通常需要大内存的大搜索空间[29]来搜索最佳网络结构;

2)通过拼接、堆叠等方式寻找较小的结构并形成完整的网络[30],[31]。

这些搜索策略以可微的方式近似离散结构选择。

传统的NAS算法[32]-[34]需要非常高的性能计算资源和数千小时的时间,这对于图像处理来说是很难实现的。因此,我们的最佳选择是在连续域和预先设计的搜索空间内搜索架构。我们根据过去的经验设计了一个类似于RedCNN[20]和DenseNet[35]的搜索空间。与当前相关的体系结构搜索方法相比,所提出的搜索空间包括具有不同位置和独立参数的独立搜索单元操作。搜索策略的灵感来自DARTS[31]。我们使用softmax将搜索转化为模型权重w和架构变量α的优化问题。我们的搜索空间的持续放松使所提出的方法能够使用数量级更少的计算资源,实现与当前最先进的方法相比具有竞争力的性能。

B. CNNs for CT Denoising

由于卷积神经网络(CNNs)的发展,包括WavResNet[36]、REDCNN[20]、WGANVGG[21]、QAE[37]、CPCE[38]、CNCL[39]、REDCNNRAM[40]等,图像域中的LDCT去噪已获得广泛成功。WavResNet通过将小波变换与残差神经网络相结合,有效地消除了LDCT中的噪声。RedCNN结合了深度学习,并结合了自动编码器、去卷积和到残差编码器-解码器CNN的快捷连接,用于LDCT成像。因此,RedCNN可以有效地去除LDCT噪声和伪影,同时保留原始图像的细节。WGANVGG使用生成对抗性网络(GAN)[41]作为主体。特别是,它通过将感知损失[42]组合到损失函数中,确保了CT图像在去噪后看起来更真实,并解决了传统MSE损失引起的模糊边缘问题。QAE用二次运算代替人工神经元中的内积。他们的实验结果在Mayo LDCT数据集上证实了有效性和稳健性。CPCE在GAN框架中引入了一种用于LDCT去噪的基于传输路径的卷积编码器-解码器网络,并且训练的2D模型可以直接应用于3D去噪。各种实验已经证实,CPCE是一种有价值且可行的机制,可以利用细胞神经网络进行LDCT去噪。CNCL提出了内容噪声互补学习策略,该策略在医学图像去噪任务中具有很好的潜力。在REDCNN-RAM中,将残差注意力模块(RAM)引入REDCNN,进一步提高了模型的去噪能力。

C. Using the Laplacian to Extract Noise

拉普拉斯变换[43]是边缘检测的一种重要方法,但对图像噪声也很敏感。二维图像中的噪声点通常被认为是局部像素值急剧变化的点。对于连续函数,一阶导数是零点,二阶导数是产生屋顶变化的峰值。因此,二阶导数可以用来识别连续函数产生剧烈变化的点。由于图像像素是离散的,拉普拉斯算子使用 x x x y y y和对角线方向上的二阶差来近似导数,
∇ 2 f ( x , y ) = ∣ ∑ i = − 1 1 ∑ j = − 1 1 f ( x + i , y + j ) − 8 f ( x , y ) ∣ ,  (1) \nabla^2 f(x, y)=\left|\sum_{i=-1}^1 \sum_{j=-1}^1 f(x+i, y+j)-8 f(x, y)\right| \text {, } \tag{1} 2f(x,y)= i=11j=11f(x+i,y+j)8f(x,y) (1)
其中 i i i j j j​ 不能同时为0。可以表示为滤波器掩模
[ 1 1 1 1 − 8 1 1 1 1 ] (2) \left[\begin{array}{ccc} 1 & 1 & 1 \\ 1 & -8 & 1 \\ 1 & 1 & 1 \end{array}\right] \tag{2} 111181111 (2)
我们在原始图像上逐行移动滤波器掩模,并将掩模中的值乘以重叠像素。

图1显示了拉普拉斯算子的应用。我们通过应用拉普拉斯算子提取LDCT图像中与像素值突然增加相对应的点,包括噪声点、边缘等。然后将提取的信息与LDCT图像在通道维度上进行凹陷,作为网络模型的输入。因此,神经网络能够自动学习处理降噪所需的信息。我们将此作为一个小技巧来提高模型的去噪效果。

在这里插入图片描述

II. METHODS

A. Independent Operation Search Cell.

在这里插入图片描述

神经网络可以被视为DAG(有向无环图),其中“顶点”是前向传播的中间产物,“边”是数学运算。如图2所示, v e r t e x i − 1 vertex_{i−1} vertexi1是指神经网络中的预序乘积(也称为特征图)。经过具体的操作,得到了新的顶点 v e r t e x i vertex_i vertexi,并继续流向DAG的下游。过去,大多数人工神经网络都专注于如何设计合理的DAG并获得良好的最终输出,而忽略了内部顶点和边。然而,网络的最终输出与正向传播中的顶点和边密切相关。可以通过选择适当的操作来生成更好的顶点,以帮助网络获得更好的结果。因此,我们设计了IOSC(Independent Operation Search Cell),重点研究如何更有效地计算当前顶点,使神经网络最终获得更好的结果。IOSC的工作原理是为当前特征图选择合适的操作,工作过程如图3所示。最初,通过多个候选操作 O O O(图3(a)中不同颜色的线)计算预序特征图。每个候选运算 o o o的计算结果具有相应的权重 α o \alpha_o αo,该权重在区间(0,1)中通过Softmax函数归一化为公式3:
Softmax ⁡ ( α o ) = exp ⁡ ( α o ) ∑ o ′ ∈ O exp ⁡ ( α o ′ ) (3) \operatorname{Softmax}\left(\alpha_o\right)=\frac{\exp \left(\alpha_o\right)}{\sum_{o^{\prime} \in \mathcal{O}} \exp \left(\alpha_{o^{\prime}}\right)} \tag{3} Softmax(αo)=oOexp(αo)exp(αo)(3)
假设IOSC的输入是 x x x,则多个候选操作的结果被加权为公式4。
o ˉ ( x ) = ∑ o ∈ O Softmax ⁡ ( α o ) o ( x ) (4) \bar{o}(x)=\sum_{o \in \mathcal{O}} \operatorname{Softmax}\left(\alpha_o\right) o(x) \tag{4} oˉ(x)=oOSoftmax(αo)o(x)(4)
操作 o o o的权重 α o \alpha_o αo 通过梯度下降进行优化。如图3(b)所示,操作重量将上升或下降。最后,IOSC选择权重最大的运算,即 o = argmax ⁡ o ∈ O α o o=\operatorname{argmax}_{o \in \mathcal{O}} \alpha_o o=argmaxoOαo,如图3(c)所示。

在这里插入图片描述

在搜索阶段,我们为IOSC预先定义了以下七个操作:

  • Conv: 3×3卷积;
  • DeConv: 3×3反卷积;
  • Oct: 3×3八度卷积[44];
  • Dil: 扩张率为2的3×3卷积[45];
  • Def: 3×3可变形卷积v2[46],[47];
  • Skip: 跳跃连接;
  • None: 无连接,返回零。

除了CT去噪网络中常用的Conv和DeConv外,我们还选择了近年来的几种新卷积。Oct根据不同的频率分组计算卷积生成的特征图,有助于提高网络提取噪声特征的能力。Dil以较低的计算成本提供了更大的感受野。Def赋予卷积核的位移能力,使网络能够更灵活地提取CT图像的周围噪声信息。每个卷积操作从ReLU激活函数开始,到批处理规范化层结束[48]。卷积核都是3×3,因为:

1) 优秀的图像去噪性能研究倾向于使用小卷积核[17] [37] [49],实验结果证实较小的卷积核对图像去噪具有优势;

2) Dil、Oct和Def提供动态感受野;

3) 搜索阶段需要大量的计算资源,因此较大的卷积核会加剧这个问题。

跳跃连接有助于压缩网络深度,并加速前向/后向传播,从而实现更快的梯度下降。当第一层得到很好的优化时,后续层往往使用跳跃连接,这会恶化网络性能[50]。因此,在搜索阶段[51],每个跳跃连接操作之后都会出现丢弃。

None操作会切断网络中的路径连通性,使搜索空间具有一定的变形能力,这有助于压缩网络深度。为了确保优化的连续性,None操作向下一层输出零,而不是没有连接。基于之前的经验[20],我们设计了如图4所示的搜索空间,它由两部分组成。对于上部的特征图,通过IOSC分别连接到下游和下部的相应位置。

在这里插入图片描述

通过将对应的上部和上游的特征图相加来获得下部的特征图。

搜索空间中的所有IOSC都是独立的,并且不共享参数。

IOSC的独立性允许根据需要最大限度地选择适当的操作,并有助于解决某些单元格的优化失败问题,使搜索空间更加灵活。

先前的研究表明,如果在搜索过程中在不同的单元之间共享权重α,则网络将以相同单元的堆栈的形式构建。由于不同网络层的梯度不同,一些小区优化可能会被其他小区覆盖。

一些单元选择了不合适的操作来共享参数,因此我们设计了独立的IOSC来进行搜索和优化。

B. Denoising Network Architecture

为了有效地去除LDCT中存在的噪声,我们设计了具有独立运算搜索单元的多级融合网络(MLF-IOSC),如图5所示,它包括三个主要组成部分:搜索空间、多级融合和残差学习。搜索空间(见第II-A节)有不同的连接(彩色线),表示候选操作。它将LDCT作为输入,并学习为每个单元选择适当的操作。搜索空间的目的是提高网络通过IOSC提取噪声特征的能力。

在这里插入图片描述

之后,我们设计了多层融合组件,以整合来自搜索空间不同层的结果。在神经网络的前向传播中,来自不同层次的高级特征具有不同的焦点和表达方式。以前的去噪模型往往只使用最后一层的结果,但这并不能充分利用网络的特征提取能力。在DenseNet[35]之后,我们使用concat操作来合成搜索空间的每一层的输出信息。Concat操作通过集成多级特征信息来提高网络性能,并缓解不同小区中架构变量的不平衡优化问题,即,
X search  = concat ⁡ ( L 1 , L 2 , … , L N ) ;  (5) X_{\text {search }}=\operatorname{concat}\left(L_1, L_2, \ldots, L_N\right) \text {; } \tag{5} Xsearch =concat(L1,L2,,LN)(5)
其中 L n ( n ∈ [ 1 , N ] ) L_n(n \in[1, N]) Ln(n[1,N])是搜索空间中第 n \mathrm{n} n层的输出,并应用两个核大小为3×3的卷积层来逐渐融合通道信息。

最后一个组成部分是残差学习,将CT图像去噪过程转化为残差映射问题。残差映射可以表示为 F ( I ) = O − I F(I)=O-I F(I)=OI,其中 I I I O O O分别是网络输入和输出;并且降噪 R ( I ) = O = F ( I ) + I R(I)=O=F(I)+I R(I)=O=F(I)+I。残差映射[52]可以避免由于图像重建和与直接映射相比实现更好的去噪[17],[20]。

PSNR已成为衡量图像质量的重要指标,因此与之直接相关的MSE损失已成为CT图像去噪中应用最广泛的损失函数。尽管MSE损失有助于实现更好的PSNR指标,但它也会导致边缘模糊,从而导致关键信息的丢失和临床诊断的风险。感知损失[42]可以在一定程度上解决MSE损失问题。因此,我们将MSE和感知损失合并为
L ( x , y ) = ∥ F ( x ) − y ∥ 2 2 + λ ⋅ ∥ V G G ( F ( x ) ) − V G G ( y ) ∥ 2 2 (6) \mathcal{L}(x, y)=\|F(x)-y\|_2^2+\lambda \cdot\|V G G(F(x))-V G G(y)\|_2^2 \tag{6} L(x,y)=F(x)y22+λVGG(F(x))VGG(y)22(6)
其中 x x x y y y分别是输入LDCT和对应的NDCT; F F F是去噪映射函数; λ \lambda λ是感知损失加权系数,我们根据以前的经验设置 λ = 1 0 − 3 \lambda=10^{-3} λ=103。我们使用预先训练的 V G G 16 V G G_{16} VGG16[53]来计算感知损失。

C. Search and Training Strategy

我们将实验分为搜索和训练两个阶段。搜索阶段确定每个IOSC对应的搜索空间中的操作,训练阶段对搜索到的架构从头开始进行去噪训练。搜索阶段只产生搜索的架构,其中结果不能用作最终的去噪效果,因为结果是通过对所有操作(包括一些不希望的低权重操作)的总和进行加权来获得的。搜索阶段通过梯度下降分别优化运算权重 α \alpha α和卷积权重 w w w。我们将训练数据分为两半,即 α \alpha α-data和 w w w-data,分别用于优化 α \alpha α w w w。根据公式6,通过训练两个数据集获得 L α − d a t a L_{\alpha-data} Lαdata L w − d a t a L_{w-data} Lwdata。搜索的目标是找到优化 L α − d a t a ( w , α ∗ ) L_{\alpha-data}(w,\alpha^*) Lαdata(w,α) α ∗ \alpha^* α,其中

w ∗ = arg ⁡ min ⁡ w L w − d a t a ( w , α ∗ ) (7) w^*=\underset{w}{\arg \min } \mathcal{L}_{w-d a t a}\left(w, \alpha^*\right) \tag{7} w=wargminLwdata(w,α)(7)
由于内部优化,获得精确的 w ∗ w^* w非常昂贵。所以我们将其近似为
w ∗ ≈ w − ξ ∇ w L w − d a t a ( w , α ) (8) w^* \approx w-\xi \nabla_w \mathcal{L}_{w-d a t a}(w, \alpha) \tag{8} wwξwLwdata(w,α)(8)
其中 w w w是当前训练步骤的卷积权重, ξ \xi ξ是其学习率。根据[31]的实验结论,选择合适的 ξ \xi ξ来近似 w ∗ w^* w是可行的。因此, α \alpha α的梯度近似为
∇ α L α − d a t a ( w − ξ ∇ w L w − d a t a ( w , α ) , α ) (9) \nabla_\alpha \mathcal{L}_{\alpha-d a t a}\left(w-\xi \nabla_w \mathcal{L}_{w-d a t a}(w, \alpha), \alpha\right) \tag{9} αLαdata(wξwLwdata(w,α),α)(9)
α \alpha α的梯度公式(公式9)通过应用链式法则变为公式10。
∇ α L α − d a t a ( w ′ , α ) − ξ ∇ α , w 2 L w − d a t a ( w , α ) ⋅ ∇ w ′ L α −  data  ( w ′ , α ) (10) \begin{aligned} & \nabla_\alpha \mathcal{L}_{\alpha-d a t a}\left(w^{\prime}, \alpha\right) \\ & -\xi \nabla_{\alpha, w}^2 \mathcal{L}_{w-d a t a}(w, \alpha) \cdot \nabla_{w^{\prime}} \mathcal{L}_{\alpha-\text { data }}\left(w^{\prime}, \alpha\right) \end{aligned} \tag{10} αLαdata(w,α)ξα,w2Lwdata(w,α)wLα data (w,α)(10)
其中 w ′ w^{\prime} w是公式8的结果。公式10中昂贵的二阶项可以通过泰勒定理展开为
∇ α , w 2 L w -data  ( w , α ) ⋅ ∇ w ′ L α −  data  ( w ′ , α ) ≈ ∇ α L w −  data  ( w + , α ) − ∇ α L w −  data  ( w − , α ) 2 ϵ (11) \begin{aligned} & \nabla_{\alpha, w}^2 \mathcal{L}_{w \text {-data }}(w, \alpha) \cdot \nabla_{w^{\prime}} \mathcal{L}_{\alpha-\text { data }}\left(w^{\prime}, \alpha\right) \\ & \approx \frac{\nabla_\alpha \mathcal{L}_{w-\text { data }}\left(w^{+}, \alpha\right)-\nabla_\alpha \mathcal{L}_{w-\text { data }}\left(w^{-}, \alpha\right)}{2 \epsilon} \end{aligned} \tag{11} α,w2Lw-data (w,α)wLα data (w,α)2ϵαLw data (w+,α)αLw data (w,α)(11)
其中, w ± = w ± ϵ ∇ w ′ L α −  data  ( w ′ , α ) w^{ \pm}=w \pm \epsilon \nabla_{w^{\prime}} \mathcal{L}_{\alpha-\text { data }}\left(w^{\prime}, \alpha\right) w±=w±ϵwLα data (w,α),并且根据DARTS[31]的经验, ϵ \epsilon ϵ 0.01 / ∥ ∇ w ′ L α -data  ( w ′ , α ) ∥ 2 0.01 /\left\|\nabla_{w^{\prime}} \mathcal{L}_{\alpha \text {-data }}\left(w^{\prime}, \alpha\right)\right\|_2 0.01/wLα-data (w,α)2的小规模集合。我们将每个内部优化步骤的学习率 ξ \xi ξ 设置为等于 w w w优化器的学习率。搜索阶段的算法流程如下:

在这里插入图片描述

在损失函数收敛并且IOSC操作的选择稳定之后,确定图5中搜索空间的架构。然后在获得确定的架构后,对网络进行去噪训练,最终实现LDCT去噪。

III. EXPERIMENTAL DESIGN AND RESULTS

A. Data Sources

为了确保所提出的模型的实际应用,我们使用了梅奥诊所授权的真实世界临床数据库,用于2016年美国国立卫生研究院AAPM梅奥诊所低剂量CT大挑战。该数据集包含来自10名匿名患者的2378张3mm厚的全剂量和四分之一剂量512×512 CT图像。基于深度学习的方法通常需要大型数据集,但在临床实践中很困难。因此,我们从9名患者中随机选择200张全剂量和四分之一剂量的CT图像作为训练集,其余患者的500张CT图像作为测试集。训练图像被分割成204800个小块,其中十分之一用于搜索阶段。

B. Search and Training settings

1) 搜索阶段:搜索架构针对50个时期进行训练,批量大小=64。所有的卷积核都是3×3,并且通道数=64。我们使用动量SGD优化器来优化内核权重 w w w。初始学习率设置为0.025,按照余弦策略退火至0.0001[54]。动量衰减和重量衰减分别设置为0.9和3×10−4。架构变量 α \alpha α都初始化为0,即,在softmax之后,每个操作对应的初始权重相等。我们使用Adam优化器来优化架构变量 α \alpha α,学习率设置为0.01,权重衰减设置为0.001。为了减少不同操作优化速度对 α \alpha α的影响,我们只在前10个时期为内核优化 w w w,然后从第11个时期开始交替优化 w w w α \alpha α[55]。patch大小的搜索设置为128集,需要3个GTX Titan Xp和大约240个GPU小时;而patch大小设置为64只需要1个GTX Titan Xp和大约60个GPU小时。

2) 训练阶段:从搜索阶段获得的网络被训练50个时期,批量大小=64。滤波器数量=64,除了最后两层,其中特征通道逐渐减少为一个。初始学习率=10−4按照余弦策略退火到零。我们使用Adam优化器优化网络并且将动量 β \beta β设置为(0.9,0.999),权重衰减为10−5。训练过程在1 GTX Titan Xp上实现,需要大约48个GPU小时。

C. Effects from Different Layer Numbers

在这里插入图片描述

在这里插入图片描述

为了研究层对搜索和训练的影响,我们将搜索空间设置为4、5、6和7层,并在最终结构中省略None操作,如图6所示。我们的主要发现如下:

1) 具有不同层的网络表现出不同的操作偏好。那些具有较少层的人倾向于使用Oct和Def来补偿较少的层和参数;其中那些具有更多层的倾向于使用传统卷积 。

2) 随着网络层数的增加,即网络主动降低复杂性,搜索空间选择更多的无和跳过操作。这是选择最佳层数的有用指南。

表1比较了不同层数的定量结果。五层网络在SSIM、PSNR和感知损耗方面实现了卓越的性能。

在这里插入图片描述

图7显示了具有不同层的网络的成像结果和绝对差异,以进一步探索CT降噪的视觉效果。我们在图7中提供了绝对差异的局部放大图像,其中点越密集,差异就越大。

在这里插入图片描述

在这里插入图片描述

图8显示了不同层的搜索时间。通常,当搜索空间中的层数为5时,该模型在短的搜索时间内达到最佳的去噪效果。因此,我们为所有后续研究选择了5层作为搜索空间。

在这里插入图片描述

D. Effects from Different Patch Size

为了增强小训练集上的模型泛化能力,我们在CT图像中使用重叠patch进行数据增强,这在以前已经被证明是有效的[20]。之前的实验使用了小的(64×64)patch,这可以提高训练效率。本节探讨了不同patch大小对训练结果的影响。我们提取三个patch大小作为训练集进行搜索和训练。

图10显示了三种patch尺寸的操作偏好之间的差异。小patch倾向于使用DeConv来提取信息,因为DeConv可以从更精细的细节中挖掘特征。然而,较大的patch往往使用更多的Dil,因为较大的感受野可以在较大的patch上产生更多有用的信息。

在这里插入图片描述

图11和表二表明,较大或较小的patch不会分别产生更好的性能或定量结果。使用32×32的patch比使用64×64的patch效果稍差。我们认为,与64×64的patch大小相比,较小的patch使网络难以学习足够的有用信息,而较大的patch对网络合成信息的能力有更高的要求,使网络难以取得良好的效果。根据实验结果,64×64的patch大小最适合我们的网络。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

我们在图12中显示了不同patch大小的搜索时间。搜索时间与图像patch大小呈正相关。因此,我们将patch大小设置为64×64,以便为后续研究进行搜索和训练。

在这里插入图片描述

E. Effect from loss function

损失函数对去噪模型的效果有着重要的影响。在先前的方法[20]、[39]中,过度依赖MSE损失函数会使CT图像变得模糊。为了使去噪图像与原始CT更相似,我们使用了组合损失函数公式6,其中引入了超参数 λ \lambda λ λ \lambda λ的值用于平衡损失函数中感知损失的权重,并影响模型的优化目标。本节讨论了 λ \lambda λ值对搜索结果的影响以及去噪效果。

图13显示了不同 λ \lambda λ值对应的IOSC搜索结果。主要发现如下:

1) Oct、DeConv和Def在这三种情况下都更受欢迎。

2) 当损失函数中感知损失的权重减少时,模型的层数减少到4层。可能的原因是MSE损失比感知损失更难优化,因此网络不需要更多的层。

3) 当损失函数中感知损失的权重增加时,从浅层的上部到下部的连接缺失。这意味着感知损失需要网络的更深层次特征,使得输出图像在更深层次特征信息中更接近目标图像。

在这里插入图片描述

我们在图13中训练了不同的网络,并在表四中显示了定量结果。当 λ \lambda λ设置为0.001时,模型实现了最佳的感知损失。当 λ \lambda λ增加时,由于MSE损失和感知损失之间的矛盾加剧,结果相对较差。当 λ \lambda λ减小时,网络更加关注去噪图像和目标图像之间的像素值差异,从而在一定程度上提高了SSIM和PSNR。然而,感知损失从0.06217上升到0.07831对去噪CT的清晰度有负面影响。

在这里插入图片描述

这一结论也可以从视觉结果中得到证明。通过比较图14中的(g)和(h),可以明显看出(h)中结构的边缘出现明显的模糊。由于医生需要清晰的去噪图像,而不仅仅是良好的评估指标,我们选择将 λ \lambda λ设置为0.001,以权衡图像清晰度和去噪性能。

在这里插入图片描述

F. Search validity analysis

由于独立单元增加了搜索空间的灵活性,在搜索空间中存在许多候选操作组合。为了验证搜索架构的有效性,我们将其与表V中的四个随机修改(M1、M2、M3和M4)进行了比较。

  • M1是通过将网络中的两层更改为“无”操作进行随机修改。
  • M2是通过将两层更改为跳跃连接而随机修改的;
  • M3是通过用Def改变两层来随机替换的,Def被认为具有更好的性能;
  • M4是在搜索阶段生成的非最优架构。

表五对结果进行定量比较。与最初提出的网络相比,M1、M2和M4在所有度量方面都更差。但对于M3,PSNR更高,P损失也略高。原始模型和M3在不同方面表现良好。

在这里插入图片描述

因此,我们提供了更直观的结果和参数分析。如图9所示,M3和原始模型都生成了高质量的CT图像,同时保留了原始图像的细节和结构。然而,M3需要更多的参数才能获得显著的重建结果。

在这里插入图片描述

M3是在搜索的结构上用可变形卷积随机替换两个层的模型。如表三所示、 M3的参数是原始模型的四倍多。因此,我们的模型在搜索阶段是局部最优的。我们将其定义为局部最优有两个原因。首先,这里有1016个可能的框架,无法通过枚举来验证哪一个是最好的。其次,我们在梯度更新中使用近似计算,而不是精确的解析解。

在这里插入图片描述

G. Search with Different Noise Levels

为了模拟更复杂的噪声并评估模型的鲁棒性,我们将泊松噪声添加到NDCT模拟的正弦图中,并通过FBP获得噪声CT。具有单色源噪声的CT扫描的投影测量值遵循泊松分布,
m i ∼  Poisson  { b i e − l i + r i } , i = 1 , … , I (12) m_i \sim \text { Poisson }\left\{b_i e^{-l_i}+r_i\right\}, i=1, \ldots, I \tag{12} mi Poisson { bieli+ri},i=1,,I(12)
其中 m i m_i mi是第 i i i个射线路径的测量值, b i b_i bi是空白扫描因子, l i l_i li是衰减系数的线积分, r i r_i ri是读出噪声。我们通过设置 b i = 5 × 1 0 5 , 1 0 6 b_i=5 \times 10^5, 10^6 bi=5×105,106 5 × 1 0 6 5 \times 10^6 5×106来控制噪声水平,如图15所示。

在这里插入图片描述

图16显示了不同噪声水平下的搜索结果。主要发现如下:

1) 对于增强的噪声级,在搜索空间中未选择“无”或“跳跃连接”操作。

2) 对于不同的噪声水平,操作偏好大致保持不变。然而,对Def和DeConv的偏好略有改善。

3) 随着噪声水平的增加,搜索空间倾向于使用具有较大感受野的操作。

4) DeConv显然对处理密集噪声非常有帮助:在所有三个噪声水平下,为DeConv选择第一个网络单元,并且第一个单元中DeConv的变量 α \alpha α随着噪声水平的增加而增加。

在这里插入图片描述

H. Analysis of IOSC and MLF

我们提出的MLF-IOSC模型由两个重要模块组成,MLF(多级融合)和IOSC(独立操作搜索单元)。MLF增强了通过融合前向传播中不同深度的特征来提高模型的噪声特性提取能力。IOSC通过为神经网络中的每个顶点选择适当的操作,进一步提高了模型的去噪效果。在本节中,我们分别对这两个部分的效果进行了消融实验。当不使用IOSC时,所有操作都将被3x3卷积所取代。当未设置MLF时,图5中的concat层和conv块将被取消。从表六中可以看出、 IOSC和MLF都在一定程度上提高了去噪效果,尤其是感知损失。对于原始网络,单独使用MLF比单独使用IOSC要好。但最好的结果是通过应用两者。

在这里插入图片描述

我们将损失函数的收敛曲线绘制如下图17所示。(a) 和(c)是训练集和验证集在搜索期间的损失函数,b) 以及(d)是训练曲线。从收敛曲线可以看出,我们的模型易于训练,这对低剂量CT去噪任务具有重要意义。在IOSC更新中,我们参考DARTS[31]对梯度计算进行了近似,其中涉及参数 ξ \xi ξ。当 ξ \xi ξ=0时,公式10中的二阶导数将消失。尽管它在没有二阶导数的情况下加快了搜索过程,但在DARTS实验中情况更糟。我们对此进行了实验,发现当 ξ \xi ξ=0时,去噪效果确实会降低。

在这里插入图片描述

I. Comparisons with Current State-of-the-art

图18-19和表七将MLF-IOSC与当前最先进的CT去噪方法(BM3D[9]、WavResNet[36]、REDCNN[20]、WGAN-VGG[21]、CPCE2D[38]、QAE[37]、CNCL[39]和REDCNN-RAM[40])进行比较,使用SSIM、PSNR[56]和感知损失来定量评估图像质量。为了进行公平的比较,我们还展示了两种变体训练的结果,而没有感知损失。我们的MLF-IOSC*和MLF-IOSC+Lap*有效地去除了LDCT噪声,并分别实现了最佳的SSIM和PSNR。此外,MLF-IOSC+Lap*进一步增加了表示特征相似性的感知损失,并对原始结构信息产生了积极影响。在第III-E节中,我们讨论了损失函数对去噪结果的影响。从表中四可以看出, λ \lambda λ越小,对SSIM和PSNR的影响就越小。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

图20-22和表九。将MLF-IOSC方法与当前最先进的各种噪声水平的模拟数据模型进行比较。与比较模型相比,MLF-IOSC仍然可以重建大多数细节,并产生更清晰的视觉结果。MLF-IOSC在低噪声水平(5×106)下实现了卓越的定量结果。对于更强的噪声,MLF-IOSC的SSIM和PSNR仅低于RedCNN,并且感知损失仍然优于所有其他模型。对于较低的噪声,我们模型的SSIM和PSNR仅低于变体MLF-IOSC+Lap*,并且感知损耗仍然优于所有其他模型。然而,我们的方法获得了有竞争力的定量指标,并在其他情况下产生了比其他模型更清晰的图像。尽管MLF-IOSC网络对于不同的噪声水平略有不同,但参数计数和Flops的变化非常小。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

因此,我们在表十一中取一个近似值、 其中MLF-IOSC在推理阶段通过参数和计算效率获得了更好的去噪结果。

在这里插入图片描述

J. Benefits from Using the Laplacian

拉普拉斯算子可以有效地提取图像的边缘信息。我们提取局部急剧变化的LDCT像素,其中包括噪声点和边缘信息,然后将LDCT和提取的信息作为网络的输入。表七显示了临床数据的网络结果。拉普拉斯算子对SSIM、PSNR和感知损失均有轻微改善,但改善并不显著。表九将模拟数据的结果与增强噪声进行比较。具有拉普拉斯算子的MLF-IOSC在更高的噪声水平下工作良好,并随着噪声水平的增加而增加改进,在几乎所有指标上都取得了比Red CNN更好的结果。因此,与最初提出的网络相比,具有拉普拉斯算子的MLF-IOSC更加关注噪声点,并为周围结构提供更好的修复和更好的性能。
在这里插入图片描述

K. Robustness

为了公平起见,我们补充了所有方法的交叉验证结果。当一名患者的数据被用作测试集时,其他患者的数据则用于训练。实验结果如表八所示。它可以看到我们的方法在交叉验证中取得了最好的结果,尤其是在感知损失方面有很大的优势。

在这里插入图片描述

为了利用IOSC的灵活性,需要在面对不同情况时进行训练,这降低了模型在实际使用过程中的效率。但这并不意味着搜索到的体系结构仅限于特定情况,这种架构仍然适用于大多数场景。在表十中、 我们的模型在噪声水平106下进行训练,并在其他噪声水平下进行测试。可以看出,在特定情况下训练的模型在其他情况下仍然可以取得有竞争力的结果。

在这里插入图片描述

IV. CONCLUSION

我们成功地将连续可微神经结构搜索应用于CT去噪。所提出的方法MLF-IOSC在临床和模拟数据上进行了评估,并与当前最先进的方法进行了比较。详细讨论了模型在不同噪声水平下的性能。我们还引入了拉普拉斯算子来进一步改进去噪。相关实验表明,该方法能够适应多种噪声条件,并取得优异的去噪效果,对低剂量CT的推广具有重要意义。未来的研究将研究不同的搜索空间设计,进一步探讨参数数量和网络深度对CT降噪的影响,并提出3D CT重建的通用搜索框架。

猜你喜欢

转载自blog.csdn.net/weixin_43790925/article/details/129919105
今日推荐