基于深度学习的无监督域自适应正则化金属伪影还原（TMI 2023)

在这里插入图片描述

论文地址：https://ieeexplore.ieee.org/abstract/document/10042444

项目地址：没找到

Abstract

基于监督深度学习的CT金属伪影还原(MAR)方法经常存在模拟训练数据集与实际应用数据集之间存在领域鸿沟的问题，即模拟训练的方法不能很好地泛化到实际数据中。无监督MAR方法可以直接在实际数据上进行训练，但它们使用间接度量来学习MAR，并且通常表现不令人满意。为了解决域间隙问题，提出了一种基于无监督域自适应(UDA)的MAR方法。具体而言，我们将UDA正则化损失引入到典型的图像域监督MAR方法中，该方法通过特征空间对齐来减轻模拟和实际工件之间的域差异。我们的基于对抗性的UDA专注于低层次特征空间，其中金属工件的域差异主要存在。UDAMAR可以同时从具有已知标签的模拟数据中学习MAR，并从未标记的实际数据中提取关键信息。在临床牙科和躯干数据集上的实验表明，UDAMAR优于其监督主干和两种最先进的无监督方法。我们通过模拟金属工件的实验和各种烧蚀研究仔细分析了UDAMAR。仿真结果表明，该方法与有监督方法接近，且优于无监督方法。对UDA正则化损失权重、UDA特征层以及用于训练的实际数据量的影响进行了研究，进一步证明了UDAMAR的鲁棒性。UDAMAR提供了一个简单和干净的设计，易于实施。这些优点使其成为一种非常可行的实际CT磁共振成像解决方案。

I. INTRODUCTION

在CT扫描中，衰减比正常组织高得多的材料(通常是金属)会导致强烈的影响，包括光束硬化、散射、光子缺乏和非线性部分体积效应，这会导致重建中的伪影出现各种形式的亮或暗条纹、带状和阴影伪影，从而干扰诊断[1]，[2]。光束硬化，在衰减期间多色x射线的平均能量变得更高，在金属存在时非常强烈。金属束硬化引起的强烈条纹和条带伪影很难通过普通束硬化校正（BHC）方法来减少。金属周围的散射也比其他区域强，增加了探测信号的偏差。光子饥饿导致投影中的严重噪声和重建图像中的显著条纹伪影。非线性部分体积效应发生在金属的锋利边缘。传统的金属伪影还原(MAR)方法是基于投影补全[3]-[5]、迭代重建[6]、[7]或图像后处理[8]、[9]来消除金属伪影的影响。近年来，基于深度学习的MAR(简称deep MAR)方法比传统的MAR方法表现出更有前景的性能。

现有的深度MAR方法大多基于监督学习(简称supervised MAR)，它通过最小化网络输出与相应标签之间的距离来训练深度神经网络，因此需要对受人工影响的数据和不受人工影响的标签进行训练。根据深度神经网络处理CT数据的领域，这些有监督的MAR方法分为三类:图像域[10]-[17]，图像域[18]-[20]，双域[21]-[26]。其中，双域MAR可以结合图像域和语法域学习的优点，从而可以提供更好的性能。但是，它需要了解准确的扫描配置，这限制了它的使用。在这项工作中，我们专注于适用于一般情况的图像域MAR，而不依赖于特定的扫描配置。

由于很难并且通常无法在实际数据集(目标域)上获得受伪影影响的成对数据和无伪影标签，因此监督式MAR方法通常在模拟数据集(源域)上进行训练，其中包含来自真实世界CT扫描的无伪影标签和由虚拟仿真生成的成对受伪影影响的数据，如[17]所述。文中的“实际”指的是真实CT扫描的实体，而不是模拟。由于金属人工制品的仿真往往是不完善的，不能完全准确地捕捉到人工制品产生的实际物理情况，因此仿真人工制品与实际人工制品之间的差异是不可避免的。在模拟和临床情况之间精确匹配 CT 采集协议（例如与几何和能量相关的扫描配置）也是不现实的，这些因素也造成了差异。这种差异会导致在模拟数据集上训练的有监督MAR方法在临床实际数据集上表现不佳，这被称为域间隙问题。我们的初步工作[27]调查了一些有监督的图像域和双域MAR方法中存在的域间隙问题及其原因。由于目标域上没有配对的标签，“预训练和微调”等常见的迁移学习方案不适用。

为了缓解MAR中的域间隙问题，研究人员提出了几种无监督MAR方法。现有无监督方法的基本原理是使用两个gan[28]来学习实际受伪影影响的数据与未配对的无伪影数据之间的双向转换，遵循CycleGAN[29]的思想。[30]应用CycleGAN实现实用的牙科CT mar，[31]将CycleGAN从2D扩展到3D，并引入额外的正则化以避免解剖结构失真。[32]提出了基于- cyclegan的基于卷积块注意力模块的MAR。ADN[33]提出基于类似于CycleGAN的基于gan的框架，在编码的特征空间中解混金属工件和内容，随后通过添加低维正则化[34]和使用多模态输入[35]进行增强。最近的工作[36]研究了基于CycleGAN的无监督双域MAR。这些无监督的MAR方法在减少某些数据集上的实际金属伪影方面显示出有效性。然而，与有监督方法不同的是，这些无监督方法通过在没有封闭形式度量的情况下区分无人工数据和受人工数据影响的数据之间的相似性和差异性来间接学习MAR。此外，GAN的训练困难是众所周知的，无监督的MAR方法在训练中可能比有监督的方法面临更多的不稳定性，结果可能不令人满意。

为了解决CT MAR中的域间隙问题，避免现有无监督MAR方法的不足，提出了一种基于无监督域自适应(UDA)的半监督深度MAR方法，称为UDAMAR。UDA是迁移学习的一个子类，它在训练过程中缺少目标域的标签。它已经成功地应用于解决多个医学成像任务中的域间隙问题，包括分割[37]-[40]、分类[41]和检测[42]。据我们所知，到目前为止，还没有发表过研究UDA在医学成像增强任务中的工作，包括CT MAR。UDAMAR结合了监督MAR骨干和为CT MAR任务设计的UDA正则化损失。基于我们对金属伪影原因的分析和经验尝试[27]，我们提出了一种低级特征空间UDA正则化损失，该损失隐式地测量模拟伪影与实际伪影之间的域差异。它是通过MAR网络和域分类器之间的对抗训练实现的。原则上，UDAMAR通过监督学习来学习减少模拟工件，同时通过对齐源域和目标域的低级特征将MAR的能力转移到实际工件上。

II. METHOD

在接下来的章节中，我们用μ表示CT图像，用p表示正弦图，用p表示概率分布。标号S表示源域，T表示目标域。标号ma表示数据包含金属伪影，fr表示数据不含伪影。

在这项工作中，源域与受模拟工件影响的数据有关，目标域与受实际工件影响的数据有关。所谓“受伪影影响”，我们指的是包含原始伪影或通过线性插值MAR[3]等方法进行部分校正。我们假设源域受伪影影响的数据 $\boldsymbol{\mu}_{\mathrm{S}}$ 来自 $p_{\mathrm{s}}(\boldsymbol{\mu})$ ，源域无伪影影响的数据 $\mu_{\mathrm{s}}^{\mathrm{fr}}$ 来自 $p_{\mathrm{S}}^{\mathrm{fr}}\left(\boldsymbol{\mu}^{\mathrm{fr}}\right)$ ，目标域受伪影影响的数据 $\boldsymbol{\mu}_{\mathrm{T}}$ 来自 $p_{\mathrm{T}}(\boldsymbol{\mu})$ ，目标域无伪影影响的数据 $\boldsymbol{\mu}_{\mathrm{T}}^{\mathrm{ft}}$ 来自 $p_{\mathrm{T}}^{\mathrm{ft}}\left(\boldsymbol{\mu}^{\mathrm{fr}}\right)$ ，其中 $\boldsymbol{\mu}_{\mathrm{T}}^{\mathrm{ft}}$ 在训练中不存在。

UDAMAR由两部分组成:源域上有监督的MAR主干，以及通过特征空间对齐来缓解源域和目标域之间差异的UDA正则化损失。图1显示了UDAMAR的总体数据流。该思想可以应用于其他有监督的MAR框架，包括图像域、中文图域和双域MAR。然而，不同类型的有监督骨干在CT MAR中具有不同的域间隙特性[27]，因此需要不同的UDA策略设计。在本工作中，我们倾向于介绍用UDA解决CT MAR中域间隙问题的基本框架，并重点研究用于图像域MAR的UDAMAR的具体设计。

在这里插入图片描述

A. 监督MAR骨干

图像域监督的MAR主干如图1中的实线框所示。在监督式MAR主干中，MAR网络 $\mathcal{R}$ 以受伪影影响的CT图像μ作为输入，估计无伪影图像 $\hat{\mu}^{\mathrm{fr}}$
$\hat{ {\mu}}^{\text{fr}}=\mathcal{R}({\mu}) \tag{1}$
有监督的MAR损失仅使用源域图像，并且是非金属区域内S μ的伪影减少估计和S μ的成对无伪影标签之间的L1范数:
$\hat{\boldsymbol{\mu}}_\mathrm{S}^\mathrm{fr}=\mathcal{R}(\boldsymbol{\mu_\mathrm{S}}) \tag{2}$

$\begin{aligned} \mathcal{L}_{\mathrm{MAP}}& =\mathbb{E}_{\mathbf{p_{s}}}||\left(\hat{\boldsymbol{\mu}}_{\mathrm{s}}^{\mathrm{fr}}-\boldsymbol{\mu}_{\mathrm{s}}^{\mathrm{fr}}\right)\odot\left(1-\mathbf{M}(\boldsymbol{\mu}_{\mathrm{s}})\right)||_{\mathrm{i}} \\ &=\mathbb{E}_{\mu_{\mathrm{s}}}\|\left(\mathcal{R}(\mathbf{M}_{\mathrm{S}})-\mathbf{M}_{\mathrm{S}}^{\mathrm{fr}}\right)\odot\left(1-\mathbf{M}(\mathbf{M}_{\mathrm{S}})\right)\|_1 \end{aligned} \tag{3}$

其中 $\mathbb{E}_{\mathbf{x}}$ 表示x对分布的期望， $\mathbf{M}(\boldsymbol{\mu}_{\mathrm{s}})$ 是输入μ中金属区域的二进制掩码，且 $\odot$ 表示逐元素乘法。

B. UDA正则化损失

1) 损失公式

为了减小源域和目标域之间的域距离，我们提出了一种基于特征空间对齐的UDA正则化损失方法，即通过 $\mathcal{R}$ 的一部分表示为 $\mathbf{v}=\mathcal{R}^{\operatorname{sub}}(\mathbf{\mu})$ 来提取μ的特征，最小化源域和目标域特征分布之间的距离:
$\min\mathcal{F}\big(p_s(\mathbf{v}_s),p_\mathbf{T}(\mathbf{v}_\mathbf{T})\big)$
其中， $\mathbf{v}_{\mathrm{S}}$ 和 $\mathbf{v}_{\mathrm{S}}$ 表示源域和目标域特征， $p_{\mathrm{S}}\left(\mathbf{v}_{\mathrm{S}}\right)$ 和 $p_{\mathrm{T}}\left(\mathbf{v}_{\mathrm{T}}\right)$ 表示对应的分布。由于从任何一个域采样的输入在内容和工件上变化很大，我们没有一个传统的度量来量化距离。因此，我们遵循基于对抗性的UDA[43] [44]的思想，即通过对抗性学习隐式地测量距离。我们将 $\mathbf{v}_{\mathrm{S}}$ 和 $\mathbf{v}_{\mathrm{T}}$ 作为两个标签为 $l_{\mathrm{S}}$ 和 $l_{\mathrm{T}}$ 的类，并采用域分类器 $\mathcal{C}$ 将 $\mathbf{v}_{\mathrm{S}}$ 与 $\mathbf{v}_{\mathrm{T}}$ 区分开来，输出一个介于 $l_{\mathrm{S}}$ 和 $l_{\mathrm{T}}$ 之间的值。它使分类结果与错误分类标签之间的距离最大化。这意味着距离 $\mathcal{F}\left(p_{\mathrm{s}}\left(\mathbf{v}_{\mathrm{s}}\right), p_{\mathrm{T}}\left(\mathbf{v}_{\mathrm{T}}\right)\right)$ 以特征提取器 $\mathcal{R}^{\mathrm{sub}}$ 为条件，通过最优分类器定义:

$\begin{aligned} \mathcal{F}\left(p_{\mathrm{s}}\left(\mathbf{v}_{\mathrm{s}}\right), p_{\mathrm{T}}\left(\mathbf{v}_{\mathrm{T}}\right)\right) & =\max _c \mathbb{E}_{\mu_{\mathrm{s}}}\left[\mathcal{C}\left(\mathcal{R}^{\text {sub }}\left(\boldsymbol{\mu}_{\mathrm{s}}\right)\right)-l_{\mathrm{T}}\right]^2 \\ & +\mathbb{E}_{\mu_{\mathrm{T}}}\left[\mathcal{C}\left(\mathcal{R}^{\text {sub }}\left(\boldsymbol{\mu}_{\mathrm{T}}\right)\right)-l_{\mathrm{S}}\right]^2 \end{aligned} \tag{4}$
另一方面，两个域中的期望特征应该最小化域距离，这意味着它们尽可能靠近 $\mathcal{C}$ 的决策边界。因此，特征空间对齐是通过搜索最优 $\mathcal{R}^*$ 最小化 $\mathcal{F}\left(p_s(\mathbf{v}_s),p_\mathbf{r}(\mathbf{v}_\mathbf{r})\right)$ 来实现的:
$\min\limits_{\mathcal{R}}\max\limits_{\mathcal{C}}\mathbb{E}_{\mu_\mathbb{s}}[\mathcal{C}(\mathcal{R}^{sub}(\mathbf{u}_\mathbb{s}))-l_\mathbb{T}]^2+\mathbb{E}_{\mu_\mathbb{r}}[\mathcal{C}(\mathcal{R}^{sub}(\mathbf{u}_\mathbb{v}))-l_\mathbb{s}]^2 \tag{5}$
这样，我们通过类似于GAN的对抗性学习形成UDA正则化损失。(5)中的最小二乘形式来自LSGAN[45]，与普通GAN[28]中的s型交叉熵形式相比，LSGAN更加稳定。将有监督的MAR损失(3)和UDA正则化损失(5)结合起来，我们有一个整体的优化问题:
$\begin{aligned} (\mathcal{R},\mathcal{C})& =:\operatorname*{argmin}_{\mathcal{R}}{\big(}{\mathcal{L}}_{\mathrm{MM}}+\lambda\operatorname*{argmax}_{C}{\big(}\mathbb{E}_{\mu_{\mathrm{S}}}{\big[}{\mathcal{C}}({\mathcal{R}}^{\mathrm{sub}}({\mathfrak{\mu}}_{\mathrm{S}}){\big)}-l_{\mathrm{T}}{\big]}^{2} \\ &+\mathbb{E}_{\mu_\mathrm{T}}[\mathcal{C}(\mathcal{R}^{\mathrm{sub}}(\mathfrak{M}_\mathfrak{T}))-l_\mathfrak{S}]^2)\big) \end{aligned} \tag{6}$
这个超参数 $\lambda$ 是为了在MAR任务和UDA之间进行权衡。由于对抗学习可能不稳定，限制其对 $\mathcal{R}$ 的影响 $\lambda$ 是有益的。在III-D节的一项消融研究中，研究了 $\lambda$ 的影响。

与GAN中的一般方法一样，(6)可以通过两个交替的步骤来求解:
$\begin{aligned} & {\mathcal{C}}^{*}=\operatorname*{argmin}_{C}\mathbb{E}_{\mu_{\mathrm{s}}}[{\mathcal{C}}({\mathcal{R}}^{\mathrm{sub}}(\mathbf{mu}_{\mathrm{s}}))-l_{\mathrm{s}}]^{2} \\ &+\mathbb{E}_{\mu_{\tau}}\left[{\mathcal{C}}({\mathcal{R}}^{\mathrm{sub}}(\mathbf{\mu}_{\mathrm{T}}))-l_{\mathrm{T}}\right]^{2}\equiv\operatorname{argmin}_{c}{\mathcal{L}}_{\mathrm{DA},c} \end{aligned} \tag{7}$

$\begin{aligned} &{\mathcal{R}}^{*}=\operatorname*{argmin}_{\mathcal{R}}{\mathcal{L}}_{\mathrm{MAP}}+\lambda{\bigl(}\mathbb{E}_{\mu_{\mathrm{s}}}[C^{*}({\mathcal{R}}^{\mathrm{sub}}(\mu_{\mathrm{s}}))-l_{\mathrm{T}}]^{2} \\ &\left.+\mathbb{E}_{\mu_{\tau}}[\mathcal{C}^{*}(\mathcal{R}^{\mathrm{sub}}(\mu_{\tau}))-l_{\mathrm{S}}]^{2}\right)\equiv\operatorname*{argmin}_{\mathcal{R}}\mathcal{L}_{\mathrm{MAP}}+\lambda\mathcal{L}_{\mathrm{UA,R}} \end{aligned} \tag{8}$

具体来说，在(7)中切换了 $l_S$ 和 $l_T$ ，以便将(6)中与假标签的距离最大化替换为(7)中与真标签的距离最小化。通过使用(7)迭代训练 ${\mathcal{C}}$ 和使用(8)迭代训练 $\mathcal{R}$ 来接近最优 $\mathcal{R}$ 。在每次迭代中，通过混淆最优 $\mathcal{R}$ ，(8)导致特征对齐，从而提高 $\mathcal{R}$ 在目标域上的性能。

UDA正则化的数据流如图1的实线框外所示。将源域输入 $\boldsymbol{\mu}_{\mathrm{s}}$ 和目标域输入 $\boldsymbol{\mu}_T$ 分别发送到MAR网络 $\mathcal{R}$ ，并从 $\mathcal{R}$ 中提取源域和目标域特征 $\mathcal{R}^{\mathrm{sub}}\left(\boldsymbol{\mu}_{\mathrm{s}}\right)$ 和 $\mathcal{R}^{\text {sub }}\left(\boldsymbol{\mu}_{\mathrm{T}}\right)$ 。然后将提取的特征发送到域分类器 $\mathcal{C}$ ，该分类器输出域分类。子 $\mathcal{R}^{\mathrm{sub}}\left(\boldsymbol{\mu}_{\mathrm{s}}\right)$ 和 $\mathcal{R}^{\mathrm{sub}}\left(\boldsymbol{\mu}_{\mathrm{T}}\right)$ 的分类用于UDA正则化损失 $\mathcal{L}_{\mathrm{UDA}, \mathcal{C}}$ 和 $\mathcal{L}_{\mathrm{UDA}, \mathcal{R}}$ 。

2) 提取UDA的底层特征

UDA正则化损失的一个关键点是选择用于UDA的特征，这些特征应该专门针对MAR任务进行定制。大多数仿真可以产生与实际工件语义一致的金属工件。仿真与实际的不匹配主要表现在探测器响应、几何正演模型、源谱、噪声分布等方面存在细微差异。因此，模拟金属人工制品与实际金属人工制品的图像差异主要在于局部细节。图2显示了具有相似金属植入物和解剖背景的模拟和实际人工制品之间的比较。

在这里插入图片描述

我们可以看到，仿真结果与实际结果在高层特征空间的位置和传播等语义信息上的差异很小，而在低层特征空间的局部细节和模式上的差异很大。因此，我们只使用 $\mathcal{R}$ 的前k层组成子 $\mathcal{R}^{\mathrm{sub}}$ ，如图3所示。

在这里插入图片描述

Fig. 3. Illustration of the feature extraction step in UDAMAR for image-domain MAR problem. Only low-level features are extracted.

由于来自 $\mathcal{R}$ 不同层的特征映射大小不同，因此它们被上采样到与第一层相同的宽度和高度，并连接在一起形成域分类器 $\mathcal{C}$ 的输入。

III. EXPERIMENTS

A. 数据准备

在这项工作中，我们使用x射线CT评估了MAR在两种诊断场景中的性能:牙齿和躯干区域的金属植入物，称为牙齿数据集和躯干数据集。在模拟中，模拟出形状和材料符合实际情况的均匀金属，并将其插入到临床无金属图像中。利用自制工具模拟了带附加噪声的光线追踪扇形光束多色投影。仿真数据和实际数据的一小部分被遗漏用于测试。

值得注意的是，除了模拟导致金属伪影的几种物理效应的局限性之外，数据采集协议之间的差异也导致了域间隙。该方法不需要在采集协议或配置上精确匹配，并且可以在仿真和实际扫描之间存在上述差异的情况下工作。因此，在每个实验中，我们只使用一种协议进行模拟，这与用于实际数据的各种协议并不完全相同。

1) 牙科数据集

原始数据是来自LargeV的牙科锥束CT模型的多台扫描仪获得的回顾性牙科CT数据。本研究经北京大学口腔医学院伦理委员会批准。对于源域子数据集，我们使用120 kVp频谱模拟受伪影影响的扇束CT图像，模拟中的几何参数大致接近临床锥束CT。金属材料是50%钛和50%铁的均匀混合物。重建网址是640×640。以2704张无金属的真实CT图像为背景进行仿真，每张图像都有不同的金属掩模，总共使用2704张金属掩模。对于目标域子数据集，我们检索了1601个最大像素值大于5000HU的临床切片作为人工图像。根据记录的规格，相应的扫描在100 kVp和3.5mA或4mA。将源域子数据集和目标域子数据集按7:2:1的比例划分为训练集、验证集和测试集。

2) 躯干数据集

躯干数据集是基于开源数据集DeepLesion构建的[46]。对于源域子数据集，我们使用120kvp频谱模拟受伪影影响的扇形波束CT图像。金属材料是钛。重建分辨率为416×416。模拟使用来自DeepLesion的4118张无金属图像和100个金属形状，其中3918张无金属图像结合90个金属形状作为训练数据，另外200张无金属图像结合剩下的10个金属形状作为测试数据。对于目标域子数据集，我们从DeepLesion中选择3000 HU以上超过100像素的临床图像作为人工影响，并将其大小调整为与模拟中相同的大小。总共使用了74名患者173次扫描的1583张切片。其中60例用于训练，其余14例用于测试。由于 DeepLesion 仅提供来自多个来源的研究的重建图像，没有有关采集参数的信息，因此存在配置差异并导致域差距。

B. 实现

1) 对比方法

我们将UDAMAR与两种有监督图像域和两种无监督图像域MAR方法进行比较：UDAMAR和I-DLMAR[15]、CycleGAN-INT和ADN[33]中使用的监督基线作为主干。

监督基线将包含原始伪像的数据 $μ^{ma}$ 作为输入 $μ$ 在(1)。I-DL-MAR是一种以线性插值(LI)[3]图像 $μ^{LI }$ 作为输入的监督方法。该方法通过用线性插值代替域相关金属数据，避免了域间隙问题，对实际领域具有一定的泛化能力，值得比较。I-DL-MAR与监督基线的唯一区别是使用 $μ^{LI }$ 作为输入μ 在(1)。

CycleGAN-INT是基于cyclegan的MAR的改进版本[30]，它使用两个gan来学习金属伪物的添加和移除。据报道，直接使用CycleGAN学习MAR可能会改变解剖结构[31]，因此我们在[31]中加入了强度损失:
$\mathcal{L}_{\mathrm{int}}=\mathbb{E}_{\boldsymbol{\mu}^{\mathrm{nn}}}||G_Y(\boldsymbol{\mu}^{\mathrm{ma}})-\boldsymbol{\mu}^{\mathrm{nn}}||_1+\mathbb{E}_{\boldsymbol{\mu}^{\mathrm{tr}}_1}||G_X(\boldsymbol{\mu}^{\mathrm{fr}\prime})-\boldsymbol{\mu}^{\mathrm{fr}\prime}||_1 \tag{9}$
来阻止这样的缺点，并成立了CycleGAN-INT。其中， $G_X$ 为减少金属伪影的生成器， $G_Y$ 为增加金属伪影的生成器， $\boldsymbol{\mu}^{\mathrm{ma}}$ 为 $G_Y$ 受伪影影响的输入， $\boldsymbol{\mu}^{\mathrm{fr} \prime }$ 为 $G_X$ 无伪影的输入。

2) 实现细节

用于监督基线的MAR网络I-DLMAR、CycleGAN-INT和UDAMAR是4级U-Net[47]，它有5个编码块(考虑到瓶颈是第5个)和4个解码块，每个块包含两个CNN层。MAR网络的详细架构如图3中的图A4 (a)所示。ADN使用其原始的编码器-解码器架构。CycleGAN-INT、ADN和UDAMAR中的鉴别器或域分类器是patch-discriminator。除ADN的网络通道最小单位数为64外，其他方法的网络通道最小单位数均为32。

所有方法都在PyTorch中实现，并使用Adam优化器 $(\beta_1，\beta_2)$ 设置为(0.5,0.999)进行训练。对于ADN，我们采用与他们原文相同的学习率初始化和调整策略。对于其他方法，学习率在前 70% 时期内固定为 0.0002，并在剩余 30% 时期内线性衰减到零。ADN的批量大小为 2，其他方法的批量大小为 8。

CycleGAN-INT和ADN是基于开源代码实现的。对于CycleGAN-INT，周期损失、身份损失、强度损失和对抗损失的权重分别为10、5、25和1，采用文献[31]中的推荐设置。对于ADN，重构损失、自还原损失、伪相一致性损失的权值均为20，对抗损失的权值为1，参照文献[33]中对数据集SYN和CL1的设置。为了评估在实际伪影上的性能，CycleGAN-INT和ADN使用来自目标域的受伪影影响的实际图像和来自源域的无伪影图像进行训练。

UDAMAR特征提取步骤的上采样方法采用双线性插值。为了训练UDAMAR，我们只在最后30%的训练周期中加入UDA正则化损失，因为这样做可以获得令人满意的性能并节省时间。为了稳定训练，UDAMAR中的在70%-80%的epoch期间从0增加到默认值(1e-2)，在其余epoch期间保持固定。

C. MAR的实际实验

我们主观评估所有的方法对牙齿和躯干数据包含实际的人工制品，因为没有基础的事实是可用的。由于传统的LI方法为I-DL-MAR提供了输入图像，因此也包括在本文中以供参考。

对于每个数据集，评估了带有金属伪影的10个实际情况，包括条纹伪影、带状伪影和阴影伪影。四名具有金属伪迹减少研究经验的观察者给出了衡量伪迹和结构损失严重程度(SASL)的四分主观评分，定义为:3 -严重的伪迹和结构损失，2 -中等的伪迹和结构损失，1 -轻微的伪迹和结构损失，0 -几乎没有伪迹或结构损失。我们将重点放在人工影响区域进行评估。因此，对于牙科病例，我们经验性地选择一个覆盖所有牙齿的300×480区域，区域位置由表1 -a中的简单算法自动确定。对于躯干病例，我们经验性地选择一个260×416区域进行评估，排除空气和病床，区域位置由表1 -b中的简单算法自动确定。

在这里插入图片描述

选择评价区域后，如图4和图5中的情形1所示，将评价区域平均划分为9个patch。观察者被要求给出每个贴片的SASL分数，所有九个贴片的平均分数就是该情况的SASL分数。

在这里插入图片描述

如图4和图5所示，显示了输入和六种方法的可视化结果(a ~ g)。由于篇幅限制，十个情况中只展示了三个。

在这里插入图片描述

1) 牙科数据集的结果

图4显示了牙科数据集中三个临床病例的结果。在这些病例中有牙冠、牙套和牙植入物，因此图像可能包含固体和空心金属。UDAMAR 对几乎所有类型的金属文物都有效，尽管严重的文物可能无法完全去除，如情况 II 和 III 所示。此外，UDAMAR 很好地维护了诊断结构。这些结果表明，UDAMAR在牙科数据集的目标域上表现良好。在所有情况下，监督基线在减少伪影方面都比UDAMAR差。它仅对非严重和易于模拟的伪影有效，如非严重的条纹和暗带伪影。对于严重的人工制品，监督基线的效果较差。通过比较监督基线和UDAMAR的性能，我们可以看到，监督基线对牙科数据集的域间隙问题非常具有挑战性，但UDAMAR缓解了这一问题。

在情况1中，LI和I- dl - mar虽然引入了新的伪影，但可以有效地减少条纹、暗带和阴影伪影。I-DL-MAR可以通过减少LI中的大部分伪象来学习生成干净的结果。这证明了投影插值预处理在实际中减少伪影的潜力。然而，在情况II和III中，当分割的金属复杂且占用许多像素时，LI和IDL-MAR表现不佳。这种情况下的金属迹线覆盖了投影中的许多信号，降低了插值的精度，增加了信息损失，导致新的伪影产生，破坏了牙齿结构

ADN和CycleGAN-INT可以在一定程度上减少条纹伪影，但在所有情况下的性能都不令人满意。此外，CycleGAN-INT在结果中引入了一些人为的异常结构，用蓝色圆圈表示。

根据图4中的SASL图表，我们可以看到I-DLMAR（d）和UDAMAR（e）实现了最低的SASL，其中UDAMAR在情况II和III中是最好的，而I-DL-MAR是最好的在情况I。监督基线（c）的性能处于中间，而ADN（f）和CycleGAN-INT（g）则差得多。

图6-a显示了所有10个病例中每个观察者的平均SASL分数，表2的第一行列出了所有病例和观察者的平均SASL总分。

在这里插入图片描述

SASL总分的排名顺序为UDAMAR、I-DL-MAR、监督基线、CycleGANINT、ADN、LI和Input。所有观察者给出的排名的一致性用Kendall的W来衡量[48]。结果W为0.9788 (>=0.9)，p值为6e-4 (<5e-3)，观察者的一致性很强。

2) 躯干数据集上的结果

图5显示了躯干数据集中三个临床病例的结果。所介绍的病例大致涵盖了常见类型的金属插入。我们可以观察到，UDAMAR对条纹伪影有效，对阴影伪影和暗带伪影部分有效。除了减少伪影外，UDAMAR的诊断结构也得到了很好的保存。监督基线不能减少大多数伪影。此外，它还可以修改法向区域的像素值或结构。结果表明，有监督基线存在严重的域间隙问题。UDAMAR在监督基线基础上的改进证明了它在躯干数据集上减小域间隙的有效性。

LI将原有的金属伪影变成了新的插值伪影，但同时也引入了严重的新伪影。I-DLMAR可以减少LI生成的大多数伪影。与其他方法相比，I-DL-MAR在去除暗带和阴影伪影方面效果最好。IDL-MAR的唯一问题是，由于LI中的信息丢失，金属周围可能会有光滑的结构，在情形1和情形2中用黄色圆圈表示。结果表明，I-DL-MAR在躯干数据集中几乎没有遇到域间隙问题。

ADN通常比UDAMAR含有更多的残留伪影，特别是情况II和III所示的暗带伪影和阴影伪影。此外，在情况 I和情况 II中，ADN在情况 I和情况 II中绿色圆圈所表示的金属附近的小区域内具有平滑增亮作用，导致结构信息丢失。CycleGAN-INT在伪影还原方面的表现与ADN相似或更差。此外，CycleGAN-INT的结果经常包含变形和不合理的结构，用蓝色圆圈表示。

从图5的SASL图可以看出，在病例II和III中，I-DLMAR的SASL最低，其次是UDAMAR。在情形1中，UDAMAR是最好的，其次是ADN。ADN总是比UDAMAR差。CycleGAN-INT和监督基线表现不佳。图6-b显示了所有10个病例中每个观察者的平均SASL分数，表II的第二行列出了所有病例和观察者的平均SASL总分。SASL总分的排名顺序为I-DL-MAR、UDAMAR、ADN、Input、LI、CycleGAN-INT和监督基线。所有观察者给出的排名的Kendall’s W为1,p值为5e-4 (<5e-3)，表明观察者完全一致。

综合牙齿和躯干数据集的结果，UDAMAR和I-DL-MAR优于其他方法，在解决领域间隙问题方面表现出强大的能力。

3) 特征空间对齐效果的可视化

为了证明特征空间对齐在UDAMAR中的效果，我们使用t-SNE对源域和目标域的特征分布进行了可视化。t-SNE对由网络的第二个编码块提取的特征执行。对于每个域，随机检测100个测试样本。监督基线、UDAMAR和I-DL-MAR的可视化结果如图7所示。

在这里插入图片描述

我们可以看到，牙齿和躯干数据集的源域和目标域特征样本在监督基线中被明显分离，表明特征空间的域差异很大。在UDAMAR中，两个域的特征分布是对齐的，表明特征空间的域差异得到了高度缓解。在I-DL-MAR中，源域和目标域特征样本是自然混合的，通过使用域不变LI输入($ μ^{LI}$)来确定特征空间几乎没有域差异。t-SNE可视化结果与三种方法在目标域上的表现一致。

我们还注意到，在躯干数据集中，监督基线中的源域特征样本被聚为10组，这是由于在模拟源域测试数据时只使用了10个金属掩模造成的。这可以解释为什么监督基线的目标域性能在躯干数据集中比在牙科数据集中差。

D. 消融研究

在这一部分中，我们研究了可能影响UDAMAR目标域性能的三个因素:UDA正则化损失的权重、UDA特征层的水平和目标域训练数据的数量。

在每项消融研究中，均显示主观评价分数和示例图像结果。UDAMAR在不同设置下的性能也与监督基线、ADN和CycleGAN-INT进行了比较。对于主观评价，在牙科数据集中用于临床研究的10个病例中，同样的4个观察者给出5个SASL分数，并计算观察者和病例的平均SASL。三项研究的SASL结果如图8所示。

在这里插入图片描述

1) UDA正则化损失的权重

在UDAMAR中，UDA正则化损失的权重是一个可调的超参数，用于平衡监督MAR损失和UDA正则化损失的影响。为了证明它的效果，我们比较了不同训练的UDAMAR在牙科数据集目标域上的性能。目标域主观评价指标如图8-a所示。我们还在附录2中研究了 $\lambda$ 对源域性能的影响。

当 $\lambda$ =1e-3后，UDAMAR在目标域上的性能显著提高。在此之前，UDAMAR具有与监督基线相似的性能( $\lambda$ =0)。当 $\lambda$ >=1e-3时，它的SASL远低于监督基线、ADN和CycleGAN-INT，尽管度量由于对抗性训练中的随机性而波动。UDAMAR适用于广泛的范围，SASL略有上升，较大。从图9可以清楚地看到 $\lambda$ =1e-3后伪影去除的较大视觉改善。总体而言，UDAMAR的目标域性能在较大范围内对不敏感。在我们的实验中，我们设置 $\lambda$ =1e-2以满足目标域和源域的性能要求(参见附录2)。

在这里插入图片描述

2) UDA特征层的层次

如第II-B节所述，我们推测图像域MAR任务的域缺口主要存在于底层特征空间，因此使用MAR网络 $\mathcal{R}$ 的前几个特征层进行域自适应。在我们的实验中，使用了前两个特征层。

为了研究不同层次的特征层对目标域性能的影响，我们实验了UDA特征层的不同组合来训练UDAMAR。由于本文中的MAR网络 $\mathcal{R}$ 是一个4阶段的U-Net，因此从5个编码块中提取了5个候选特征层。为了显示每个编码块之后的特征层之间的差异，表III列出了它们的接受域和相对特征映射大小(相对于输入图像大小)。所有候选人组合连续功能层{(1)、(2)、(3),(4),(5),(1、2),(2,3),(3、4),(4、5),(1、2、3),(2、3、4),(3、4、5),(1,2,3,4),(2、3、4、5),(1、2、3、4、5)}是评估。

在这里插入图片描述

目标域主观评价结果如图8-b所示。我们可以看到，最佳组合是(1,2)。考虑从同一层开始的组合(图8-b中背景颜色相同)，层数越深的组合，SASL一般越高。示例图像结果如图10所示，与图8-b中的SASL一致。

在这里插入图片描述

这表明，UDA的合适选择是仅结合低级特征层。一种直观的解释是，深层通常由语义信息主导，并且在金属伪像中缺乏微妙的领域差异，因此对领域适应没有什么好处。

3) 目标领域训练数据量

在实践中，当将一种方法应用于医学成像中新的目标域数据集时，数据采集可能是昂贵且耗时的。因此，我们希望所提出的UDAMAR即使在目标域训练数据数量有限的情况下也能有效。在本研究中，我们分别使用牙科数据集中完整目标域训练数据的1%、5%、10%、20%和60%来训练UDAMAR，为了公平起见，较小的部分数据集是较大部分数据集的子集。图11特别对比了完整和1%(13个样本)目标域训练数据集中金属像素的分布情况。

在这里插入图片描述

我们可以看到，1%部分数据集的分布与完整数据集的分布差异很大，并且没有覆盖超过1500个金属像素的情况，这表明仅使用1%部分数据集训练UDAMAR的挑战很大。

主观评价结果如图8-c所示，示例图像结果如图12所示。从图8-c中，我们观察到使用所有部分目标域数据集训练的UDAMAR获得的SASL远低于监督基线。

在这里插入图片描述

从图12中我们可以看到，使用部分目标域数据集训练的UDAMAR结果在视觉上也都优于监督基线。这告诉我们，在少量的目标域训练数据，甚至只有十几个样本的情况下，UDMAR就可以学习到对目标域的适应，有效地提高了对实际金属伪影的还原。

E. 与UDA方法在分割任务中的实验比较

UDA方法已应用于医学影像分割。在这里，我们重新实现了一种典型的分割UDA方法PnP-AdaNet[38]进行比较。PnP-AdaNet是一种基于对抗性的UDA分割方法，用于解决MRI和CT之间的跨模态域间隙。提出了一种即插即用机制，该机制在源域和目标域使用非共享编码器，并在UDA阶段使用固定的共享连续层。采用基于WGAN的多层次UDA特征在多层次特征空间进行对齐。此外，它使用WGAN来监测预测掩码的形状，以完成主要的分割任务。更多的细节可以在[38]中找到。

由于PnP-AdaNet不是为MAR设计的，我们在重新实现中做了一些调整，既遵循了原始PnP-AdaNet工作的关键属性，又满足了MAR的要求。我们基于本文研究的方法使用的两种MAR网络架构，即带和不带跳过连接的编码器-解码器结构，为MAR重新实现了PnP-AdaNet。第一个是用于监督基线的U-Net, UDAMAR, I-DL-MAR和CycleGAN-INT。第二种是没有跳过连接的编码器-解码器，在ADN中使用，称为EncDec。我们重新实施的设计和训练细节见附录3。

图13显示了每种方法在牙科数据集中的临床病例(图4中的病例II)上的输出和残差。

在这里插入图片描述

使用U-Net架构的UDAMAR达到了最佳性能。UDAMAR和PnP-AdaNet都提高了伪影减少的性能，表明了UDA的有效性。此外，两种方法在U-Net体系结构下的性能都优于EncDec体系结构，显示了跳过连接的优势。然而，我们可以看到PnP-AdaNet改变了输出中的一些诊断结构(用黄色圆圈表示)，并引入了一些假的黑点状结构(用蓝色圆圈表示)。相比之下，UDAMAR保留了大部分结构，残余中包含了最小的结构。

图14显示了每种方法在躯干数据集中的临床病例(图5中的病例III)上的输出和残差。

在这里插入图片描述

使用U-Net架构的UDAMAR达到了最佳性能。在人工减少方面，UDAMAR在U-Net架构下表现更好，而PnP-AdaNet在EncDec架构下表现更好。此外，残差图像显示PnP-AdaNet在U-Net和EncDec架构下都会导致高偏置。

综上所述，尽管这两种方法都通过UDA提高了伪像的减少，但与PnP-AdaNet相比，UDAMAR在MAR任务中更准确，偏差更小，结构保存更好。

IV. DISCUSSION

在我们的研究中，UDAMAR在靶域和源域的表现都优于CycleGAN-INT和ADN(见附录1)。此外，CycleGAN-INT还受到不可预测的诊断结构变化的进一步困扰。在目标域上的数据效率方面，UDAMAR仅在少量目标域数据下就能取得很好的效果。相比之下，在完整数据上训练的无监督MAR方法仍然表现不尽如人意。

UDAMAR在方法设计上比无监督MAR方法有两个优点。UDAMAR提供了一个简单的框架，在现有的有监督MAR框架上只增加了一个域分类器和一个UDA正则化损失，因此易于训练。相比之下，目前的无监督MAR方法比较复杂，包括两个gan用于人工产物的还原和生成，以及多个超参数的调整。这种复杂的设计增加了实践中的训练难度。UDAMAR的另一个优点是将MAR的学习与对抗学习分离开来，从而可以有效地学习MAR。相比之下，无监督的MAR方法通过GAN隐式学习MAR，没有MAR的封闭度量。这增加了学习MAR的不稳定性和硬度，这可能解释了我们实验中无监督方法的性能不令人满意的原因。

在许多情况下，I-DL-MAR和UDAMAR具有相当的目标域性能。这两种方法各有利弊。对于UDAMAR，域自适应仍然不完善。与I-DL-MAR中没有畴隙相比，UDAMAR在获得精确金属迹线时的性能可能略差。另一方面，由于I-DL-MAR依赖于精确的金属痕量分割，特别是在伪影损坏的CT图像中，这可能很困难，因此在一些实际的牙科病例中，I-DLMAR的结果可能包含严重的伪影。此外，I-DL-MAR中的输入LI丢失了信息，这可能导致金属附近的结构变形。

综上所述，在不可避免的域间隙问题下，UDAMAR是一个很好的选择。

V. CONCLUSION

在这项工作中，我们解决了基于深度学习的MAR中的域间隙问题，其中监督MAR方法在模拟工件上表现良好，但在实际工件上泛化得很差。我们提出了一种基于无监督域自适应的半监督MAR方法，称为UDAMAR，该方法将低级特征空间UDA正则化与源域和目标域的特征对齐添加到图像域监督MAR框架中。所得到的UDAMAR可以同时从源域标记的模拟工件中学习知识，并将MAR的能力转移到目标域上拟合未标记的实际工件。实验结果证明了在实际情况下处理域间隙的必要性，以及UDA解决问题的有效性，以及该方法相对于现有无监督MAR方法的优势。我们的工作证明了将UDA应用于磁共振成像任务的可行性，为实现实际的CT磁共振成像提供了一种解决方案。

近年来，双域学习得到了广泛的关注，双域学习对机器学习有很大的帮助，但需要了解准确的扫描配置，这限制了双域学习的使用，并使双域学习的原因复杂化。与图像域MAR仅存在数据级域差异不同，双域MAR还存在由于扫描协议不匹配和金属痕量分割不准确而导致的方法级域差异。与I-DL-MAR类似，将li校正的数据作为输入可以帮助减少双域方法中的数据级域差异。例如，根据我们的实验[27]，使用li校正数据作为输入的DudoNet[21]在实际数据上的表现优于使用受伪像影响的数据作为输入的DudoNet++[22]。后来DANNet[24]和DSCMAR[25]利用这两组数据作为输入，以提高细节保存和减少伪像。解决双域MAR中复杂的域间隙问题是有益的，也是具有挑战性的，我们将在未来继续努力。此外，我们将把UDAMAR扩展到3D。我们还注意到，还有另一种类型的UDA方法利用了跨域的图像转换，并且已经提出了一些用于图像增强任务，如去雾[49]和水图像增强[50]，[51]。然而，我们初步尝试实现基于图像翻译的UDA来解决MAR中的域间隙，并没有取得令人满意的性能。我们认为需要仔细探索为MAR设计的精致设计，以利用该技术。我们将更多地研究各种新兴的UDA技术，例如将我们的特征空间对齐与图像翻译相结合的策略，以便在未来的工作中进一步改进实际的MAR。

此外，我们想指出的是，所提出的UDAMAR方法可以适用于其他CT扫描，例如用于公共安全检查的行李CT，其中经常存在金属部件。另一方面，在真实的病人扫描中，实际的伪影可能比金属伪影要多得多，比如运动伪影。UDA对更大范围的伪影还原可能特别有用。研究更复杂情况下的UDA方法是我们未来工作的兴趣。

APPENDIX 1: SIMULATED EXPERIMENT OF MAR

在这里插入图片描述

APPENDIX 2: SOURCE DOMAIN PERFORMANCE VS. THE WEIGHT OF UDA REGULARIZATION LOSS

在这里插入图片描述

APPENDIX 3: RE-IMPLEMENTATION DETAILS OF PNP-ADANET FOR MAR IN SECTION III-E

在这里插入图片描述

Metal Artefact Reduction with Unsupervised Domain Adaptation Regularization for Practical CT Images

基于深度学习的无监督域自适应正则化金属伪影还原（TMI 2023)

Abstract

I. INTRODUCTION

II. METHOD

A. 监督MAR骨干

B. UDA正则化损失

1) 损失公式

2) 提取UDA的底层特征

III. EXPERIMENTS

A. 数据准备

1) 牙科数据集

2) 躯干数据集

B. 实现

1) 对比方法

2) 实现细节

C. MAR的实际实验

1) 牙科数据集的结果

2) 躯干数据集上的结果

3) 特征空间对齐效果的可视化

D. 消融研究

1) UDA正则化损失的权重

2) UDA特征层的层次

3) 目标领域训练数据量

E. 与UDA方法在分割任务中的实验比较

IV. DISCUSSION

V. CONCLUSION

APPENDIX 1: SIMULATED EXPERIMENT OF MAR

APPENDIX 2: SOURCE DOMAIN PERFORMANCE VS. THE WEIGHT OF UDA REGULARIZATION LOSS

APPENDIX 3: RE-IMPLEMENTATION DETAILS OF PNP-ADANET FOR MAR IN SECTION III-E

猜你喜欢