Low-dose CT Image Synthesis for Domain Adaptation Imaging Using a Generative Adversarial Network

基于噪声编码迁移学习的生成对抗性网络的低剂量CT图像域自适应合成(IEEE TMI 2023)

在这里插入图片描述

论文地址:https://ieeexplore.ieee.org/document/10081080

项目地址:https://github.com/nightastars/GAN-NETL

Abstract

基于深度学习(DL)的图像处理方法已经成功地应用于低剂量x射线图像,这是基于训练数据的特征分布与测试数据的特征分配一致的假设。然而,来自不同商业扫描仪的低剂量计算机断层扫描(LDCT)图像可能包含不同数量和类型的图像噪声,这违反了这一假设。此外,在将基于DL的图像处理方法应用于LDCT时,模拟和临床CT检查的LDCT图像的特征分布可能会有很大不同。因此,用来自一个特定扫描仪的模拟图像数据或LDCT图像训练的网络模型可能不能很好地用于另一个CT扫描仪和图像处理任务。为了解决这种领域自适应问题,在本研究中,提出了一种新的具有噪声编码转移学习(NETL)的生成对抗性网络(GAN),或GAN-NETL,以生成具有不同噪声风格的配对数据集。具体来说,我们提出了一种执行噪声编码算子的方法,并将其合并到生成器中以提取噪声样式。同时,通过迁移学习(TL)方法,图像噪声编码算子将源域的噪声类型转换为目标域的噪声类别,以产生真实的噪声。使用一个公共数据集和两个私有数据集来评估所提出的方法。实验结果证明了我们提出的GAN-NETL模型在LDCT图像合成中的可行性和有效性。此外,我们使用合成的临床LDCT数据进行了额外的图像去噪研究,验证了所提出的合成在提高基于DL的LDCT处理方法性能方面的优点。

I. INTRODUCTION

x射线计算机断层扫描(CT)在医学检查和诊断中的广泛和日益增长的使用,给患者带来了CT辐射剂量潜在健康风险的主要担忧。之前的一些研究表明,CT过度x射线辐射会增加遗传病和癌症风险[1-2]。此外,儿童在接受CT检查时比成人更容易受到x射线辐射[3]。因此,减少CT的辐射剂量已成为医学影像学研究界的一个主要焦点。减少辐射剂量的技术方法主要有两种,即减少x射线辐射强度和减少采样投影视图。前者将减少用于成像的光子数量,但会导致重建图像中的噪声和伪影增加。后者将导致采样不足或投影数据重建不完整的问题。结果,两种剂量减少方法都导致重建的CT图像质量下降。为了解决上述问题,使用深度学习(DL)来降低辐射剂量的低剂量CT(LDCT)成像方法最近引起了越来越多的研究兴趣[4-10]。通过大量利用AAPM[11]提供的LDCT数据集的实验研究,一些基于DL的网络模型已经证明了它们在提高LDCT图像信噪比的同时保留图像细节的潜力。这些网络方法[12-16]从LDCT和正常剂量CT(NDCT)图像的配对训练数据中学习具有网络参数的映射函数。相比之下,已经进行了其他尝试,将基于DL的图像处理方法和迭代图像重建方法相结合,以提高LDCT成像的性能[17-24]。

在临床实践中,由于数据采集中患者的呼吸运动和辐射剂量限制,很难直接从CT设备中收集成对的训练数据。因此,应考虑采用噪声建模方法从NDCT扫描中生成LDCT数据。在LDCT数据的噪声模式服从近似正态分布随机过程的假设下,使用一些噪声建模方法可以很容易地合成任意噪声水平的LDCT数据[25-27]。然而,真实的CT成像情况涉及许多数据处理程序。因此,真实CT数据的噪声分布可能比噪声建模CT数据更复杂(图1)。此外,来自不同制造商的CT扫描仪通常具有不同的硬件设计、数据预处理程序、重建算法和低剂量扫描协议。因此,来自不同成像设备的LDCT图像的噪声模式可能由于变化的影响而变化。

在这里插入图片描述

生成对抗性网络(GAN)[29]由于其在图像合成任务中的优异性能,发挥了越来越重要的作用。GAN是一种特殊类型的DL模型,它可以在这两个模型之间的对抗性学习的基础上同时训练生成模型和判别模型。最近,基于GAN的一系列新的网络模型被推导出来。一般来说,这些模型可以分为两种类型。第一种类型由监督网络模型组成,该模型利用成对的训练数据学习从源域到目标域的映射。Isola等人[30]提出了一种名为pix2pix的条件GAN(CGAN),并证明了它对于解决成对图像到图像的翻译问题是有用的。王等人[31]进一步改进了用于高分辨率图像合成任务的pix2pix。为了避免冲走上述条件图像合成模型的语义信息,Park等人[32]提出了一种空间自适应归一化(SPADE)层,该层可以控制合成图像的风格和语义。为了减少SPADE引入的额外参数和计算成本,Tan等人[33]设计了一种用于高效语义图像合成的类自适应归一化(CLADE)。第二类GAN包括基于具有未配对数据集的图像到图像翻译任务的无监督网络模型。Lu等人[34]提出了一种使用解纠缠表示和对抗性学习的图像去模糊方法。为了解决医学图像中的噪声或伪影抑制问题,最近提出了几个源自CycleGAN[38]的解纠缠网络[35-37]。廖等人[35]设计了一些专门的损失函数,以将潜在空间中的CT图像中的金属伪影分离出来。Huang等人[36]开发了一种噪声驱动的解纠缠表示学习方法,用于抑制光学相干断层扫描图像中的散斑噪声。为了更好地完成不成对的图像到图像的翻译任务,张等人[28]提出了一种新的具有两个鉴别器的GAN结构,该结构可以通过设计风格损失和内容损失来转移具有保留结构细节的图像风格。此外,朱等人[38]通过引入循环一致性损失,提出了一种无监督的图像到图像翻译网络架构。Wolterink等人[39]提出了一种使用具有循环一致性损失的GAN的无监督MR到CT合成方法。张等人[40]增加了形状一致性损失,以减轻跨模态图像合成任务中的几何失真。

此外,其他研究人员提出了迁移学习(TL)方法[41-46]来实现图像风格转换。Gatys等人[41]提出了一种分离自然图像内容和风格表示的方法,用于高级图像合成。刘等人[42]提出了一种统一风格的方法来学习不同相机之间的风格差异,以抑制图像风格的不一致。Lv等人[43]提出了一种新的自适应方法,将分割模型从合成域提升到现实目标域。Kim等人[44]提出了一种自适应实例归一化网络(AINDNet),它促进了网络模型从合成噪声到真实噪声图像的良好工作。这些方法大多是为了解决自然图像合成和风格转换的问题而提出的,在这些问题中,大尺寸的训练数据集很容易获得。然而,当用于小数据集大小的LDCT图像合成任务时,它们将面临新的挑战。

本研究设计、开发和评估了一种DL方法,用于在目标图像中生成具有真实噪声风格的成对LDCT数据集。为了解决噪声自适应问题,设计了一种新的图像合成模型GAN-NETL,该模型有效地分离了CT图像的内容表示和噪声风格。具体来说,我们设计了一个噪声编码网络,并将其合并到生成器中,以生成噪声特征内核。同时,为了将合成图像的噪声样式从源域提升到目标域,我们提出了一种TL方法,通过将噪声编码算子从一个模拟CT噪声域转换到另一个真实CT噪声域。使用一个公共数据集和两个私有数据集来评估所提出的GAN-NETL方法。此外,我们使用合成的临床LDCT数据进行了额外的图像去噪研究,以验证所提出的GAN-NETL网络可以用于提高基于DL的方法的域自适应成像性能。

总之,这项工作的主要贡献包括:

1)实现了一种新的基于DL的方法来生成具有不同噪声风格的配对数据集,以解决域自适应LDCT成像问题。

2) 设计了一种新的图像合成模型,该模型可以分别表示CT图像的内容和噪声风格。

3) 为了有效地传递噪声样式,设计了噪声编码网络来提取噪声样式,同时在网络训练中引入了TL方法来传递合成LDCT图像的噪声样式。

4) 在公共和私人数据集上的大量实验结果表明,GAN-NETL网络可以生成高保真的LDCT数据。此外,我们证明了所提出的方法确实有助于提高基于DL的LDCT处理方法的图像去噪性能。

II. METHODS AND MATERIALS

A. 用于图像合成的通用网络模型

在典型的基于深度学习的LDCT图像处理算法[4,12]中,LDCT图像被认为是通过NDCT图像的退化过程得到的。设 y ∈ R H × W y \in \mathbb{R}^{H \times W} yRH×W表示LDCT图像, x ∈ R H × W x \in \mathbb{R}^{H \times W} xRH×W表示相应的NDCT。降解过程可描述为:
y = G ( x ) + n , (1) y=G(x)+n, \tag{1} y=G(x)+n,(1)
式中,G为高量子噪声等因素引起的退化过程函数,n为附加图像噪声。解决LDCT图像合成问题的目标可以考虑寻求映射函数G: x→ y使用卷积神经网络(CNN),它在给定NDCT图像x的情况下估计LDCT图像y。

为了合成具有逼真噪声风格的临床LDCT图像数据,我们设计了一种新的LDCT图像合成模型。该模型对CT图像的噪声样式进行了显式表示,并进行了噪声提取和编码。本文提出的图像合成模型定义如下:
E : x → k , (2) E:x\to k, \tag{2} E:xk,(2)

y = G ( z ; k ; θ ) , (3) y=G(z;k;\theta), \tag{3} y=G(z;k;θ),(3)

式中,E表示噪声提取和编码操作,k表示特定的噪声特征核,y表示本文模型合成的LDCT图像。z为NDCT图像x的图像内容。它可以通过逐步网络对NDCT图像进行预去噪来获得。函数G表示带有训练参数的图像合成模型。

B. GAN-NETL网络架构

基于所提出的图像合成模型,我们设计了一种新的内容和噪声互补学习网络结构,在保留CT衰减内容的情况下,将图像的噪声样式转移到目标图像域。图2显示了GAN-NETL的架构示意图。首先,引入数据预处理模块(DPM)将内容图像与NDCT输入分离。然后,在发生器中设计两个编码器E1和E2,分别对内容分量和噪声分量进行独立编码。这里,我们使用DPM对NDCT图像进行预处理,生成内容图像。由于该内容图像主要由组织衰减信息组成,因此内容编码器(E1)应该是一个很好的内容提取器。此外,由于我们的监督标签图像包含高水平的噪声信息,噪声编码器(E2)将被强制从NDCT输入执行噪声提取和编码。通过内容和噪声互补学习,GAN-NETL可以获得更好的图像合成性能。同时,两种编码器的设计有助于不同数据集特征信息的互补利用。最后,为了利用不同数据集的特性,我们还设计了一个两阶段迁移学习(TL)训练策略。在下文中,我们将详细描述其每个组件。

在这里插入图片描述

1)DPM模块: 使用所提出的GAN-NETL网络模型中的DPM模块(图2 (A))生成内容图像。采用Shan等[5]提出的模块化自适应处理神经网络(MAPNN)对LDCT图像和NDCT图像进行处理,输出不同去噪程度的临床图像。通过预训练的MAPNN模型对NDCT输入进行预处理,得到内容图像,并将其作为生成器编码网络的语义内容输入。同时,将NDCT图像作为发生器中噪声编码网络的输入。

2)生成器模块: 如图2 (A)所示GAN-NETL网络中的生成器包含三个部分,分别是Encoder1 (E1)、Encoder2 (E2)和Decoder1 (D1)。E1和E2都使用相同的预处理块(PrB)和三个下采样操作。如图2 (B)所示,PrB对输入进行卷积和下采样操作,然后进行5个残余块(ResB)操作。但是,不同之处在于E2包含一个反射和77转换操作。此外,E2将继续对获得的特征进行图2 (A)所示的4次ResB操作,从而完成噪声特征核k的估计。将噪声特征核k与E1获得的编码内容特征合并,生成Decoder1的输入(D1)。为了将特征映射恢复到输入的原始大小,D1对融合后的信息进行了三次反卷积操作。此外,我们在D1中增加了一个后处理操作,即后处理块(PoB)。如图2 (B)所示,PoB首先对获得的输入执行10次ResB操作,然后进行卷积操作。然后使用像素洗牌进行上采样,上缩放系数设为2。最后,使用一次“卷积加Leaky Rectified Linear Unit (LeakyReLU)”运算和一次卷积运算获得最终输出。其中,PrB模块和下采样操作用于从输入图像中提取多尺度特征信息,反卷积操作和PoB模块用于通过卷积和多通道重组将低分辨率特征映射转换为高分辨率特征映射。

3)判别器模块: 多层判别器模块[32]使用卷积、BatchNorm和LeakyReLU的组合来执行三个下采样操作和一个卷积操作,然后是卷积操作,以区分生成器生成的真实LDCT样本和伪LDCT样本(合成LDCT样本)。

为了更详细地了解GAN-NETL网络中的生成器和鉴别器及其组件,表1列出了网络中使用的参数的详细信息。

在这里插入图片描述

C. GAN-NETL训练的损失函数

损失函数的选择反映了网络训练中特征信息的水平,对所提模型学习的性能至关重要。逐像素损失测量了预测图像和目标图像中像素强度之间的相似性,补偿了它们在像素空间上的差异[47]。然而,像素间损失算法只提取了底层的图像特征信息,忽略了高层的图像结构信息。因此,我们在目标函数中增加了感知损失,以结合高层次感知和语义图像差异的知识。在对抗损失函数中使用了[48]中的Wasserstein GAN损失。将三种损失加权和得到总损失函数,表示为:
L u a t a l = min ⁡ G max ⁡ D L W G t N ( D ˙ , G ) + λ c b L c b + λ p L p , (4) L_{u a t a l}=\operatorname*{min}_{G}\operatorname*{max}_{D}L_{W G t N}(\dot{D},G)+\lambda_{c b}L_{c b}+\lambda_{p}L_{p}, \tag{4} Luatal=GminDmaxLWGtN(D˙,G)+λcbLcb+λpLp,(4)
其中, LWGAN、 Lcb和Lp分别表示对抗损失、逐像素损失和感知损失。D和G表示判别器和生成器。 λ c b \lambda_{c b} λcb λ p \lambda_{p} λp是超参数,用于平衡三个项之间的贡献。

1) Wasserstein GAN Loss: Arjovsky等[48]提出利用EM距离对GAN网络进行改进,命名为Wasserstein GAN (WGAN)。在这项工作中,我们使用了WGAN的对抗损失函数:
min ⁡ G max ⁡ D L w G A N ( D , G ) = − E y [ D ( y ) ] + E x [ D ( G ( x ) ) ] , (5) \min\limits_G\max\limits_D L_{wGAN}(D,G)=-E_y[D(y)]+E_x[D(G(x))], \tag{5} GminDmaxLwGAN(D,G)=Ey[D(y)]+Ex[D(G(x))],(5)
其中,公式5左边的上述两项E[]是期望算子。在网络训练过程中,优化生成网络G可以减小y与G之间的EM距离x(),从而有效缩短生成分布与真实分布之间的距离。然而,鉴别器网络D的目标是区分这两个分布。

2)像素级损失(pixel-wise Loss):为了使合成的LDCT图像在像素空间上更接近原始LDCT图像,受Lai等人[49]的启发,我们在目标函数中加入Cahrbonier损失(CB Loss)作为像素级损失,测量合成的LDCT图像G(x)与相应的原始LDCT图像y之间的距离:
L c b = ∑ i M ( y − G ( x ) 2 ) + ε 2 , (6) L_{cb}=\sum_i^M\sqrt{(y-G(x)^2)+\varepsilon^2}, \tag{6} Lcb=iM(yG(x)2)+ε2 ,(6)
其中 i ∈ M i \in M iM ,M为总训练对,其中, ε \varepsilon ε为常数,我们经验地将为1e-3。

3)感知损失:我们在目标函数中增加了感知损失,目的是基于人类视觉感知的度量,促使合成的LDCT图像与原始LDCT图像具有一致的结构细节。Zhang等[50]提出了学习感知图像patch similarity (LPIPS)来构建相似性判断的感知矩阵。在这里,我们使用LPIPS作为感知损失:
L p = E ( G ( x ) , y ) [ L P I P S ( G ( x ) , y ) ] , (7) L_{p}=E_{(G(x),y)}[L P I P S(G(x),y)], \tag{7} Lp=E(G(x),y)[LPIPS(G(x),y)],(7)
其中LPIPS的定义为:
d ( a , a o ) = ∑ l 1 H l W l ∑ h , w ∥ w l ⊙ ( y ^ h w l − y ^ 0 h w l ) ∥ 2 2 , (8) d(a,a_o)=\sum_l\frac{1}{H_lW_l}\sum\limits_{h,w}\|w_l\odot(\hat{y}_{hw}^l-\hat{y}_{0hw}^l)\|_2^2, \tag{8} d(a,ao)=lHlWl1h,wwl(y^hwly^0hwl)22,(8)
其中, ao和a分别表示参考和y和G( x)生成的patch。l表示层数,H和W表示高度和宽度, y ^ l , y ^ 0 l ∈ R H l × W l × C l \hat{y}^l,\hat{y}_0^l\in\mathbb{R}^{H_l\times W_l\times C_l} y^l,y^0lRHl×Wl×Cl表示特征堆栈, w I ∈ R c I w_I\in\mathbb{R}^{c_I} wIRcI是用于按通道缩放激活的向量。

D. 数据准备

我们使用一个公共数据集和两个私有数据集来评估所提议的网络的多功能性和实用性。

1)AAPM数据集[11]: 包含10个患者的临床NDCT图像和相应的模拟“四分之一剂量”LDCT图像,每张图像大小为512×512像素。我们在第一阶段随机选取4793对切片厚度为1mm的图像作为所提出的网络模型的训练集,并在剩余数据集中随机选取500对图像作为验证和测试集,以评估所提出的GAN-NETL网络模型的性能。

2)Private phantom数据集: 数据采集使用拟人化躯干Phantom CTU-41 (Kyoto Kagaku, Japan)。Private phantom数据集是通过使用CT扫描仪以六种不同的剂量水平扫描该phantom而获得的。我们选取了2360幅LDCT图像,切片厚度为1.25mm,管电压为120kVp,管电流为20mAs ~ 60mAs。我们将切片厚度为1.25mm、管电压为120kVp、管电流为120 mAs的CT图像作为相应的NDCT图像。每个图像包含512×512像素。我们随机选择2000对图像作为第二阶段GAN-NETL网络的训练集,360对图像作为验证和测试数据集。

3)Private clinical 数据集: 该数据集包含18个患者的临床NDCT图像,管电压为120kVp,管电流从100mAs到150mAs不等。重建图像的切片厚度为1.25mm,图像尺寸为512×512像素。其中2例患者管电流数据低。患者1 CT图像,管电流为80 mAs和120 mAs,切片厚度为1.25 mm。患者2包含40 mAs和120 mAs管电流的CT图像,切片厚度1.25 mm。在这项研究中,我们使用两位患者的384张图像作为临床测试数据集来评估所提出的训练GAN-NETL的性能。

此外,使用ScintCare CT128扫描仪(Minfind Medical Co.,Ltd.,China)获取phantom数据集和clinical数据集。对于phantom数据集,我们选择轴向采集协议来对齐配对的LDCT和NDCT图像。然而,对于clinical数据集,使用轴向或螺旋采集协议。

考虑到AAPM数据集和Private phantom数据集是配对的,在接下来的图像合成实验中,我们将它们的LDCT表示为“ground truth”。由于从不同患者获得的私人临床CT数据中的呼吸运动不同,我们无法从CT扫描仪获得“ground truth”图像。相反,我们选择了比较分析中相对相似的LDCT图像作为“参考”图像。

E. 训练策略及实现细则

1)GAN-NETL模型的训练策略: 将AAPM公共数据集定义为源域,将临床私有数据集定义为目标域。本工作采用两阶段训练方案。第一阶段,使用AAPM数据集对网络进行预训练。在第二阶段,固定GAN-NETL中E1模块的参数,并使用我们的私有Phantom数据集对网络进行微调。E1模块中固定参数的主要原因是基于假设AAPM数据集中的NDCT图像来自患者研究,其背景内容更接近目标域。然而,LDCT图像中的噪声是人为添加的,可能与目标域的噪声风格不同。相比之下,我们的私人phantom数据集中的LDCT图像是通过使用相同的CT扫描仪降低管电流获得的。该数据集的噪声样式与目标域一致,而图像内容信息来自同一躯干phantom,相对简单。因此,在完成两阶段的训练过程后,我们期望E1能够在目标域中挖掘临床数据集的内容信息,E2能够实现噪声样式从源域到目标域的转换。

2)GAN- NETL模型的训练细节: 提出的网络模型包含DPM模块和改进的GAN网络结构。前者主要包括预训练的MAP-NN网络,其主要功能是对NDCT图像进行降噪,生成相应的清晰内容图像。首先,分别从AAPM和私人phantom数据集中随机选择2000对图像。然后,我们将两个数据集均匀混合,对MAP-NN进行预训练。DPM模块中预训练MAP-NN的训练参数和细节如表2所示。对于改进GAN网络训练的两个阶段,采用AdamW优化算法[51]对生成器和判别器进行优化。超参数 β 1 \beta_1 β1 β 2 \beta_2 β2分别设置为0.9和0.999,权重衰减设置为0。此外,为了增加网络的非线性因子,我们使用LeakyReLU作为激活函数,并设置负斜率为0.2。在第一阶段,将生成器和判别器的初始学习率设置为8.0×10 -5,学习率每10次衰减一次,衰减率设置为0.5。此外,小批量大小设置为16,贴片大小为80×80。对于第二阶段,两个网络的学习率被设置为1.0×10-5,学习率被设定为每20个时期衰减一次,衰减率为0.5。同时,mini-batch大小设置为20,patch大小设置为80×80。对于超参数 λ c b \lambda_{cb} λcb λ p \lambda_p λp,实验设置为1.0和0.5。GEN-NETL网络第一和第二阶段的训练epoch总数都定为100。所有的网络模型都是基于Pytorch [52] DL库在Python中实现的,研究中使用NVIDIA Titan V GPU进行网络训练/验证。

III. RESULTS

A. 图像合成结果

在接下来的实验中,我们将我们提出的GAN-NETL网络模型与三种最先进的监督图像风格转移方法(即SPADE[32]、CLADE[33]和AINDNet[44])进行LDCT图像合成的比较。为了实现这三种监督图像风格转移方法,我们使用了这些研究中提供的开源代码。由于这些方法是在自然图像上训练的,为了确保这些方法被优化以提供公平比较的最佳性能,我们在两个阶段中优化了它们的一些超参数。对于包含配对NDCT和LDCT图像数据的AAPM和私人phantom数据集,进行定性和定量评估。然而,对于我们的私人临床数据集,由于缺乏标记图像,进行了定性比较。为了定量评估LDCT图像合成的网络模型的性能,我们选择fr起始距离(FID)[53]来衡量合成LDCT和原始LDCT图像之间的特征向量距离,因为它经常被用来评估生成图像的质量,并且被证明与人类对视觉质量的评估有很好的相关性。FID值越小,合成图像的质量越高。此外,还采用了结构相似指数(SSIM)和均方根误差(RMSE)。这里,SSIM值越大或RMSE值越小,结果越接近目标图像。

1)来自AAPM和Private Phantom数据集的结果: 使用相同的数据集重新训练所有网络模型,进行定性和定量评估。在相同的测试集上使用训练好的网络模型。表3给出了所有被测网络合成结果图像的图像质量指标的平均测试结果模型。通过观察AAPM数据集的测试结果,发现AINDNet对于LDCT图像的合成效果很差。相比之下,SPADE和CLADE网络模型都比AINDNet提供了更准确的合成LDCT图像,而GAN-NETL网络模型在合成LDCT图像方面得分最高(表III),精度最高。

在这里插入图片描述

另一方面,当使用私有phantom数据集作为测试数据集,并且在第二阶段TL之后使用相同的网络模型时,所提出的GAN-NETL网络也取得了比其他网络模型更好的分数。两个代表性的合成CT切片的定量结果如图所示(图3和图4),模拟测试数据集如表4所示此外,我们提出的网络实现了最高的SSIM和最小的RMSE/FID。总体而言,定量实验结果表明,GAN-NETL网络模型提供的合成LDCT图像具有最佳的组织结构相似性。

在这里插入图片描述

在这里插入图片描述

除了以上的定量比较和分析外,我们还在对合成的LDCT图像进行定性比较的基础上,对不同网络模型的性能进行了评价。图3显示了来自AAPM数据集的代表性CT切片的比较。从左到右,图3最上面一行的图像分别是“ground truth”和来自四个测试网络模型(AINDNet, SPADE, CLADE, GAN-NETL)的合成LDCT图像。从差异图像中可以看出,AINDNet和SPADE网络模型合成的LDCT图像结构差异较大,而CLADE和GAN-NETL模型合成的LDCT图像结构差异较小。总之,比较结果表明,AINDNet模型给出的低保真度合成LDCT图像在CT图像强度值和结构细节上都与“ground truth”图像有很大不同。SPADE和CLADE模型在结构细节保存方面都优于AINDNet模型,而其CT图像强度值高于“ground truth”图像。所提出的GANNETL输出最接近“ground truth”图像的合成LDCT图像,即与“ground truth”图像一致的高保真图像。

在这里插入图片描述

图4显示了使用私人phantom数据集的代表性CT切片对不同网络模型的性能进行类似定量比较的结果。为了更清晰地观察图像中组织结构的细节,将“ground truth”图像中蓝色方框标记的相同区域从最上排的AINDNet、SPADE、CLADE和GANNETL四种网络模型放大。与其他网络模型相比,GAN-NETL的图像放大部分提供了最好的LDCT图像合成细节。图4的下一行显示了来自四种测试网络模型的“ground truth”与合成LDCT图像的绝对差值图像。差异图像再次定量地显示了合成LDCT图像与“地面真实”图像的接近程度。总的来说,比较表明我们提出的图像合成方法具有较好的图像合成性能,具有较高的精度和保真度。

2)临床数据集的结果: 为了进一步验证GAN-NETL模型在目标域LDCT图像合成中的适应性,我们使用私人临床数据集进行了实验研究。图5描述了四种网络模型合成的LDCT图像与相应的“参考”图像的对比结果。

在这里插入图片描述

通过观察四种网络模型的结果,AINDNet生成的图像与相应的参考图像的噪声样式有很大的不同。相比之下,SPADE和CLADE合成的LDCT图像与相应的参考图像相比具有相似的噪声样式,但平均灰度值存在显著差异。为了更好地进行比较,我们从图5的三个样本切片图像中选取感兴趣的ROI 1、ROI 2和ROI 3三个区域,对不同模型的性能进行定量评价。表V通过比较三个roi的均值和标准差(STD)显示了对四种不同网络模型的定量评价。

在这里插入图片描述

由SPADE和CLADE模型得到的LDCT合成图像的CT均值与参考图像有显著差异,这与图5的视觉观察结果一致。此外,GAN-NETL模型得到的LDCT合成图像的均值和STD值与参考图像的均值和STD值最接近。总体而言,本文提出的GAN-NETL网络模型提供了与参考图像在图像细节和平均CT值水平上一致的高保真LDCT合成图像。

B. GAN-NETL的消融研究

我们进行消融研究,以分析我们整个网络中不同组件的有效性。为了验证多重损失函数和DPM的影响,我们使用AAPM和私有phantom数据集进行了定性和定量评估。为了检验噪声编码网络E2和迁移学习训练策略的有效性,我们使用我们的私人phantom和临床数据集进行了定性比较。在下面,我们详细讨论了我们提出的GAN-NETL网络模型的几种设计的影响。

1)损失函数的影响: 在本节中,我们研究了对抗损失、CB损失和LPIPS损失对GAN-NETL网络模型的影响。在这里,我们使用只包含对抗损失的网络模型作为基础网络。随后,我们在基网络中加入不同的损耗。它们包括:1)增加CB损耗的Base+Lcb; 2)增加LPIPS损耗的Base+Lp;以及3)在基础网络中增加LPIPS损耗和CB损耗的GAN-NETL。表6总结了消融研究的定量结果。

在这里插入图片描述

与基础网络相比,base +Lcb和base +Lp在SSIM、RMSE和FID三个指标上都有明显的改善,这表明CB损耗和LPIPS损耗都对我们提出的GANNETL网络有贡献。此外,Base+Lp的FID值明显小于Base+Lcb的FID值,这表明使用LPIPS作为感知损失可以缩短合成数据与真实数据分布之间的特征向量距离。当两种损失函数结合使用时,所提出的GAN-NETL得到了最好的评价指数值,说明它能够充分利用两种损失函数的优点,进一步提高网络性能。图6给出了四种测试方法的结果。从图6最下面一行的绝对差值图像可以看出,本文提出的GAN-NETL网络(base+Lp+Lcb)合成的LDCT图像差值最小,视觉图像质量最好。这些结果表明,在我们提出的GAN-NETL网络中,CB损耗和LPIPS损耗确实提高了性能。

在这里插入图片描述

2)DPM的效果: 我们使用DPM从NDCT输入中分离内容图像。然后,发生器中的编码器E1和E2可以独立对互补特征信息进行编码。这里,我们从整个网络中删除DPM来测试效果。在表7中,“With DPM”(全网络)的结果在SSIM、RMSE和FID方面得分最高。此外,如图7所示,与ground truth(图7(a))及其误差热图相比,我们的全GAN-NETL网络(图7(b))的预测结果优于修正后的网络(图7©),并且在噪声样式和背景纹理方面获得最小的差异。以上结果表明,DPM确实有助于我们的整体网络。

在这里插入图片描述

3)编码器E2的效果: 我们使用编码器E2进一步提高了GAN-NETL的传输网络性能。在这里,编码器E2从我们的完整网络中删除以测试效果。图8显示了来自phantom数据集的完整网络(带编码器E2)和修改后的网络(不带编码器E2)的一些比较结果。两个网络生成的图像计算出的FID值显示在图像的左上角。将目标区域(用红色线框表示)的绝对差图像放大,置于同一图像的红色矩形内。通过比较,我们的GAN-NETL网络得到的图像与修正后的图像有更接近的相似度。可以看出,定性和定量评价是一致的。

在这里插入图片描述

图9提供了修改后的网络和我们来自私人临床数据集的完整网络的结果。通过视觉比较,改进后的网络合成的临床LDCT图像比完整的图像具有更多模糊的组织细节。这些结果表明,编码器E2确实提高了传输网络的性能。为了更好地描述为什么E2可以改善所提出的GANNETL的传输网络性能,我们在使用NDCT图像作为输入时显示了编码器E1和E2的25个特征映射。

在这里插入图片描述

从图10目视观察,编码器E1和E2在提取内容和噪声特征信息方面效果良好。同时,编码器E2的设计可以帮助GAN-NETL网络学习仿真数据集(AAPM)和目标phantom数据集的互补特征信息。因此,全GAN-NETL网络可以合成目标域的高保真临床LDCT图像。

在这里插入图片描述

4)迁移学习的效果: 通过迁移学习实现噪声风格的转换。在本研究中,迁移学习将从GAN-NETL网络模型的训练中移除。图11给出了具有TF的训练模型的结果(图11(b))和不具有TF的模型的结果。图11(c))。图11(b)显示了与图11(a)相似的噪声样式。图11©的噪声类型与图11(a)不同,说明TL确实增强了网络在噪声类型传递方面的性能。

在这里插入图片描述

C. 在LDCT图像去噪中的应用研究

基于GAN-NETL的图像合成方法的目的是将LDCT图像的噪声特征分布从源域转移到新的目标域,使现有的基于GAN-NETL的去噪方法能够应用于现实的临床去噪任务。在这项研究中,我们比较了不同的网络模型的目标领域的图像去噪性能与不进行领域适应训练。在LDCT图像去噪研究中,将使用公共AAPM数据集训练的网络模型记为不进行领域自适应的模型,而使用合成临床数据集训练的模型称为具有领域自适应的模型。在接下来的实验中,合成的临床数据集包含18例患者的LDCT和NDCT图像对。为了训练网络模型,分别从AAPM和合成临床数据集中选择5000对CT图像作为训练集,而从合成临床数据集中的剩余数据中选择1000对图像作为测试集。以MAPNN[5]为例进行去噪研究,将经过和未经过域适应训练的网络模型分别记为“MAPNN- w”和“MAPNN- o”。MAPNN-W和MAPNN-O的训练参数和细节如表二所示。

在图12和图13中,最大迭代次数D表示用于MAPNN网络训练的克隆模块的数量,这可以帮助放射科医生以特定任务的方式优化去噪深度[5]。这里,根据原论文,我们将D设为5。图12显示了使用从“MAPNN-W”和“MAPNN-O”网络模型中获得的合成临床数据集的两组独立图像切片的两组代表性评估结果。

在这里插入图片描述

在第一组中,随着去噪水平的增加,MAPNN-O图像中的小血管细节(蓝色箭头所示)逐渐消失(见第1行),而MAPNN-W图像中,尽管去噪水平增加,小血管细节仍然保留。在与骨面积比较的第二组评估中(绿色箭头所示),MAPNN-W模型保留了高密度骨组织之间的详细信息,而随着迭代次数的增加,发现MAPNN-O丢失了一些组织信息。在LDCT图像的低对比度区域(红色圆圈表示),我们发现MAPNN-W在低对比度区域保留更多结构方面表现更好。为了定量评价带域自适应和不带域自适应的网络模型对LDCT图像去噪的效果,我们采用了两种常用的图像质量指标PSNR和SSIM。

表8的结果表明,随着迭代次数的增加,MAPNN-O网络模型的去噪性能会下降,而MAPNN-W在PSNR和SSIM方面显著提高了分步去噪性能。

在这里插入图片描述

为了进一步验证MAPNN-W的域适应能力,我们使用目标成像场景的真实临床LDCT数据集进行了另一次图像去噪实验。所得图像如图13所示。

在这里插入图片描述

与上述合成临床数据集的结果类似,对比结果也表明,在降低图像噪声水平的同时,保留图像对比度和细节方面,MAPNN-W网络模型优于MAPNN-O网络模型。定性和定量分析结果表明,GAN-NETL网络合成的临床数据集有助于提高基于深度学习方法的域适应成像性能。

IV. DISCUSSION AND CONCLUSION

为了解决领域自适应问题,本文提出了一种新的基于dl的方法来生成具有逼真噪声风格的新成像场景的成对数据集。对于临床LDCT图像合成,由于缺乏成对训练数据,无法直接学习映射函数。针对上述问题,提出了一种基于生成对抗网络(GAN)和噪声编码迁移学习(NETL)的LDCT图像合成网络模型,即GAN-NETL。提出的GAN-NETL网络模型提供了CT图像噪声样式的显式表示。同时,利用迁移学习(TL)设计了一个两阶段的训练计划,以促进所提出的网络模型同时表征现实临床场景的内容和噪声分布。我们的主要动机是将从公共数据集中学习的背景内容信息视为公共知识,而从目标数据集中学习的噪声分布作为给定的样式。通过使用TL,我们假设所提出的GAN-NETL网络模型能够在保留底层内容表示的同时学习新的噪声样式。

由于GAN-NETL的灵活性,所提出的图像合成方法可以很容易地扩展到CT成像领域的更多应用。首先,GAN-NETL除了可以应用于LDCT图像合成之外,还可以用于解决LDCT处理任务中的域自适应问题。其次,由于GAN-NETL没有对噪声分布做任何假设,因此可以扩展到解决其他图像合成问题,如金属伪影合成、运动伪影合成、投影数据合成等。此外,对于CT制造商,GAN-NETL还可以用于生成具有逼真噪声风格的私有对数据集,以促进基于dl的成像方法走向更多应用。虽然提出的GAN-NETL有许多优点,但它也有一些缺点。例如,它被提议用于有监督的LDCT图像合成,其中来自phantom研究的实验图像数据是先决条件。然而,对于一些缺乏合适幻像的新成像场景,需要考虑开发半监督或无监督域自适应的新方法。

总之,我们设计了一种新的LDCT图像合成方法,通过将噪声合成算子从一个模拟噪声域转移到另一个真实噪声域,将GAN-NETL网络模型推向了一个新的LDCT图像合成任务。为了证明所提出方法的有效性,在一个公共数据集和两个私人数据集上进行了广泛的实验。AAPM和phantom数据集的实验结果很好地验证了GAN-NETL网络模型在LDCT图像合成方面的良好性能。更重要的是,利用TL后提出的GAN-NETL网络模型,可以生成具有逼真目标域噪声风格的LDCT图像对,从而实现对LDCT图像的有效处理。尽管许多现有的方法已经尝试通过修改或设计新的网络架构、损失函数等来解决LDCT成像问题,但从一个新的角度来看,我们的工作重点是研究在目标域中为LDCT成像应用提供配对训练数据的可能性。

猜你喜欢

转载自blog.csdn.net/weixin_43790925/article/details/131113774