DICDNet: 用于CT图像金属伪影还原的深度可解释卷积字典网络

在这里插入图片描述

论文地址：https://ieeexplore.ieee.org/document/9609987

项目地址：https://github.com/hongwang01/DICDNet

Abstract

计算机断层扫描(CT)图像经常受到患者体内金属植入物引起的不利伪影的影响，这将对随后的临床诊断和治疗产生不利影响。尽管现有的基于深度学习的方法在CT图像的金属伪影还原(MAR)方面取得了很好的成功，但大多数方法都将该任务视为一般的图像恢复问题，并利用现成的网络模块来增强图像质量。因此，这样的框架总是因为缺乏对特定任务的足够的模型可解释性而受苦。此外，现有的磁共振成像技术在很大程度上忽略了金属损伤CT图像的固有先验知识，这有利于磁共振成像性能的提高。在本文中，我们专门为MAR任务提出了一个深度可解释卷积字典网络(DICDNet)。特别是，我们首先探讨了金属伪影在CT图像中总是呈现非局部条纹和星形图案。基于这些观察，部署了一个卷积字典模型来对金属工件进行编码。为了求解该模型，我们提出了一种新的基于近端梯度技术的优化算法。只需简单的算子，该算法的迭代步骤就可以很容易地展开为具有特定物理意义的相应网络模块。

I. INTRODUCTION

X 射线计算机断层扫描(CT)已广泛应用于临床诊断和治疗。然而，在成像过程中，患者体内的金属植入物经常导致x线投影数据缺失，从而导致重建的CT图像出现严重的非局部条纹和星形伪影[1]-[4]。这些金属伪影不仅降低了CT图像的视觉质量，而且对后续的诊断过程产生不利影响。在这方面，近年来针对CT成像的自动金属伪影还原(automatic metal artifact reduction, MAR)任务越来越受到学术界的关注[1]-[6]。

对于MAR任务，常规工作可分为三大类：物理效果校正、正弦图补全和迭代重建。第一条研究线旨在直接纠正物理效应，包括光束硬化[7]-[9]和光子饥饿[10]。这些方法在高原子序数金属存在时很难达到令人满意的性能。因此，以下的MAR工作将sinogram domain中的金属痕量区域视为缺失数据，并采用不同的策略，如线性插值(linear interpolation, LI)[11]、归一化MAR[12]、分数阶全变分法(分数阶total variation inpainting)[13]等，将其替换为替代数据。然而，这些插值值并不总是准确地满足物理成像约束，从而导致重建的CT图像中出现新的伪影。迭代重建是另一个传统的研究方向，利用手工制作的正则器，如小波域的总变分[17]、[18]和稀疏性约束[19]，从未受影响的正弦图[14]、[15]或加权/校正的正弦图[16]中恢复CT图像。此外，将金属植入物形状和衰减系数方面的先验知识纳入迭代重建过程的研究较少，如[20]、[21]。然而，此类方法有一个共同的缺点——手工制作的正则化器通常很难自动适应临床金属腐蚀 CT 图像中出现的复杂多样的伪影。此外，所涉及的迭代计算往往很耗时，这当然限制了它在实际应用中的潜在用途。

近年来，深度学习(DL)技术被应用于MAR任务，主要分为三类：

sinogram-domain-only。早期的MAR方法主要集中在弦图域增强，利用卷积神经网络(convolutional neural networks, cnn)对金属损坏的弦图域进行校正，然后通过滤波后的反投影重建CT图像[1]，[5]，[22]-[24]。

image-domain-only。这种方法试图处理来自CT图像域的MAR任务。研究者将该任务视为一个图像恢复问题，利用不同的网络模块和学习策略来实现去除伪像[25]-[27]。
joint-sinogram-and-image-domain。为了获得更好的MAR性能，最近的研究开始联合优化弦图域和CT图像[2]-[4]，[28]，[29]。

尽管现有的深度MAR方法取得了令人印象深刻的MAR性能，但它们仍然存在一些明显的局限性。具体而言，对于1和3，在实际应用中难以获得所开发的弦图信息。对于2和3，所涉及的图像增强模块没有完全集成到MAR任务的内在先验知识中，例如伪影的结构先验(例如非局部条纹和星形图案)。然而，这样的先验信息对于帮助网络更准确地识别金属工件应该是潜在有用的。此外，大多数CT图像增强模块[2]，[4]都是基于现成的U-Net构建的[30]。当然，很难评估每个网络模块的内在作用，导致特定MAR任务的可解释性较弱。

针对这些问题，本文针对特定的MAR任务构建了一个可解释的图像域网络，该网络充分嵌入了工件固有的先验结构，并结合了基于模型驱动的先验方法和基于数据驱动的DL方法的优点。与涉及弦图的方法相比，我们的仅图像域方法可以更容易地作为插件模块集成到当前的计算机辅助诊断系统中。总之，我们的贡献主要有三个方面：

有效的先验和简单的算法：对于MAR任务，我们探索金属伪影的先验结构，并建立一个卷积字典模型，该模型由仅使用简单算子的算法求解。具体而言，观察到金属伪影反复出现在金属损坏的CT图像的不同位置，具有非局部条纹和星形图案[1]-[4]。因此，我们将这些观察结果(即先验知识)明确地表述为卷积字典模型，如图1所示，其中卷积核Kn传递重复的局部模式，特征图Mn表示伪像的位置。为了求解该模型，我们使用近端梯度技术推导出一种优化算法，该算法只包含简单的运算符(例如，逐点乘法)，而不是使用复杂的傅里叶变换的传统求解器[31]。这便于我们将算法展开为网络模块。
良好的可解释性：通过将所提出的优化算法的每一步展开到一个专用的网络层，我们为特定的MAR任务实现了一个深度可解释的卷积字典网络(DICDNet)。与现有的深度MAR网络相比，该网络的优势在于，每个网络模块都与优化算法中涉及的每个算子精细地一对一对应，因此具有特定的物理意义。这种良好的可解释性使得我们很容易理解我们的mar模型背后的机制。通过可视化第5节中金属工件的改进学习过程，可以分析每个网络模块的基本作用。
卓越的泛化：在合成和临床数据集上进行了大量的实验，以验证我们的DICDNet的有效性。实验结果证明了该方法的优越性，在MAR任务中实现了新的SOTA性能，并明显提高了下游骨盆骨折多骨分割的准确性。

在这里插入图片描述

本文的其余部分组织如下。第二节介绍了针对具体任务的卷积字典模型，并提出了一个简单的求解算法。第三节提出了建议的可解释网络框架。第四节说明了相关的实现细节。第V节根据可解释性验证模型，并可视化处理模块的中间输出。第六节通过综合对比实验验证了我们方法的有效性。论文最后以第七节结束。

II. CONVOLUTIONAL DICTIONARY MODEL FOR MAR

在本节中，我们详细介绍了提出的用于MAR任务的卷积字典模型。

A. 模型定义

如图1所示，观察到的金属影响CT图像由金属部分和非金属部分两个区域组成。显然，金属通常比正常组织的CT值高得多。因此，对于MAR任务，我们的目标是去除不利的伪影并恢复非金属区域的正常组织。为此，在本研究中，我们将重点放在非金属区域，将金属损坏的CT图像 $\in \mathbb{R}^{H \times W}$ 的非金属区域合理分解为：
$I\odot Y=I\odot X+I\odot A, \tag{1}$
式中，H和W分别为CT图像的高度和宽度；X和A分别表示无金属CT图像和金属植入物引起的不良伪影；I为大小为H ×W的二元指示矩阵，表示不含金属植入物的区域； $\odot$ 是逐点乘法。

为了恢复未知的X，当前基于图像增强的深度MAR方法部署了不同的网络架构来学习从Y到X(或A)的映射函数。我们不是启发式地构建一个复杂的、几乎是“黑箱”的网络架构，而是探索任务背后的内在先验知识，然后提出一个框架，将传统的基于先验的方法和基于深度学习的方法相结合，以获得更好的可解释性。特别是如图1所示，金属伪影反复出现在金属损坏的CT图像的不同位置，具有相似的局部条纹和星形图案[2]，[4]。受工作[32]的启发，我们提出了一种卷积字典机制来编码a的结构性先验知识：
$A=\sum\limits_{n=1}^N\boldsymbol{K}_n\otimes\boldsymbol{M}_n=\mathcal{K}\otimes\mathcal{M}, \tag{2}$
式中， $\boldsymbol{K}_n \in \mathbb{R}^{f \times f}$ 是一个大小为 $\times f$ 的卷积核，描述了伪影的局部模式， $\boldsymbol{M}_n \in \mathbb{R}^{H \times W}$ 是对应的特征图，表示局部模式出现的位置； $N$ 是核数， $\otimes$ 是二维卷积运算。计算 $\mathcal{K} \otimes \mathcal{M}$ 是将 $\otimes$ 从二维形式扩展到张量形式，这可以很容易地通过现成的函数torch.nn实现。PyTorch中的Conv2d[33]。其中， $\mathcal{K} \in \mathbb{R}^{f \times f \times N}$ ， $\mathcal{M} \in \mathbb{R}^{H \times W \times N}$ 由 $\boldsymbol{K}_n$ 和 $\boldsymbol{M}_n(n \in\{1,2, \ldots, N\})$ 叠加而成，正如：
$\mathcal{K}=\left[\boldsymbol{K}_1, \boldsymbol{K}_2, \cdots, \boldsymbol{K}_N\right], \quad \mathcal{M}=\left[\boldsymbol{M}_1, \boldsymbol{M}_2, \cdots, \boldsymbol{M}_N\right] . \tag{3}$
将Eq.(2)代入Eq.(1)，可以将非金属区域的模型改写为：
$\boldsymbol{I} \odot \boldsymbol{Y}=\boldsymbol{I} \odot \boldsymbol{X}+\boldsymbol{I} \odot(\mathcal{K} \otimes \mathcal{M}) . \tag{4}$
为了便于理解，可以参考图1。

实际上，我们可以将核 $\mathcal{K}$ 视为一个卷积字典[34]，用于表示金属工件的重复和相似的局部模式。它们提供共同的先验知识来描述不同工件金属伪影CT图像,从而可以自动从训练样本的深的网络学习能力强(详细Sec. III)。不像 $\mathcal{K}$ ，功能映射 $\mathcal{M}$ 是相关伪影的位置，随金属损坏的图像 $Y$ 。因此,在测试阶段,我们的目标是来推断用固定的 $\mathcal{K}$ 从 $Y$ 推断出 $\mathcal{M}$ 和 $X$ ，优化问题表述为：
$\min\limits_{\mathcal{M},X}\|I\odot(\boldsymbol{Y-X-K\otimes\mathcal{M}})\|_F^2+ap_1(\mathcal{M})+\beta_{P_2}(X), \tag{5}$
式中， $p_1(·)$ 和 $p_2(·)$ 分别表示传递 $\mathcal{M}$ 和 $X$ 先验知识的正则化项； $\alpha$ 和 $\beta$ 是权衡参数； $\left\|\cdot\right\|_F$ 表示Frobenius范数。由于CNN的自适应先验拟合能力[35]，[36]，先验 $p_1(·)$ 和 $p_2(·)$ 可以使用第三节所述的深度学习方法从训练数据中自动提取，与传统的手工制作的基于先验的方法[18]，[19]，[37]-[41]相比，采用对未知x的主观先验假设，这种方法更加高效和有效。同样，采用这种数据驱动策略来学习隐式模型也被应用于其他视觉任务中[32]。[42]。

B. 模型优化

为了求解Eq.(5)，我们期望构建一个仅由简单算子组成的优化算法。然后，我们可以逐步将算法的每个算子转换为相应的网络模块，从而轻松地构建一个深度可解释的展开框架。然而，对于Eq.(2)中典型的卷积字典模型，传统的求解方法往往涉及复杂的运算，如傅里叶变换和傅里叶反变换[31]，[34]，这就给算法-网络转换带来了困难。针对这一问题，我们提出了一种基于近端梯度技术交替更新 $\mathcal{M}$ 和 $X$ ，计算简单的算法[43]。详情可归纳为：

更新 $\mathcal{M}$ ：给定 $(s - 1)$ 次迭代估计的特征映射 $\mathcal{M}^{(s-1)}$ 和去除伪影的图像 $\boldsymbol{X}^{(s-1)}$ ，通过计算问题(5)w.r.t. $\mathcal{M}$ 的二次逼近[43]，可以迭代更新 $\mathcal{M}$ 为：
$\min _{\mathcal{M}} \frac{1}{2}\left\|\mathcal{M}-\left(\mathcal{M}^{(s-1)}-\eta_1 \nabla g\left(\mathcal{M}^{(s-1)}\right)\right)\right\|_F^2+\alpha \eta_1 p_1(\mathcal{M}), \tag{6}$
其中 $\eta_1$ 为步长， $g\left(\mathcal{M}^{(s-1)}\right)=\left\|\boldsymbol{I} \odot\left(\boldsymbol{Y}-\boldsymbol{X}^{(s-1)}-\mathcal{K} \otimes {\mathcal{M}}^{(s-1)}\right)\right\|_F^2$ 。对于一般正则器[44]，可推导出Eq.(6)的解为：
$\mathcal{M}^{(s)}=\operatorname{prox}_{\alpha \eta_1}\left(\mathcal{M}^{(s-1)}-\eta_1 \nabla g\left(\mathcal{M}^{(s-1)}\right)\right), \tag{7}$
其中 $\operatorname{prox}_{\alpha \eta_1}(\cdot)$ 是与M的前一项 $p_1(\cdot)$ 相关的近端算子 $\mathcal{M}$ 。
$\nabla g\left(\mathcal{M}^{(s-1)}\right)=\mathcal{K} \otimes^T \left(\boldsymbol{I} \odot\left(\mathcal{K} \otimes \mathcal{M}^{(s-1)}+\boldsymbol{X}^{(s-1)}-\boldsymbol{Y}\right)\right)$ ，其中 $\otimes^T$ 表示转置卷积。很容易推导出 $\mathcal{M}$ 的更新公式：
${\mathcal{M}}^{(s)}=\mathrm{prox}_{\alpha\eta_{1}}\Big(\mathcal{M}^{(s-1)}-\eta_{1}\mathcal{K}\otimes^{T}\Big(\mathbf{I}\odot\Big(\mathcal{K}\otimes\mathcal{M}^{(s-1)}+\mathbf{X}^{(s-1)}-Y\Big)\Big)\Big). \tag{8}$
更新 $\boldsymbol{X}$ ：给定 $\mathcal{M}^{(s)}$ 和 $\boldsymbol{X}^{(s-1)}$ ，通过求解问题(5)w.r.t.变量 $\boldsymbol{X}$ 的二次逼近来更新伪影减少的CT图像 $X$ ：
$\min _{\boldsymbol{X}} \frac{1}{2}\left\|\boldsymbol{X}-\left(\boldsymbol{X}^{(s-1)}-\eta_2 \nabla h\left(\boldsymbol{X}^{(s-1)}\right)\right)\right\|_F^2+\beta \eta_2 p_2(\boldsymbol{X}), \tag{9}$
其中， $h\left(\boldsymbol{X}^{(s-1)}\right)=\left\|\boldsymbol{I} \odot\left(\boldsymbol{Y}-\boldsymbol{X}^{(s-1)}-\mathcal{K} \otimes \mathcal{M}^{(s)}\right)\right\|_F^2$ 。因此， $\boldsymbol{X}$ 的最终更新规则可以写成：
$\boldsymbol{X}^{(s)}=\operatorname{prox}_{\beta \eta_2}\left(\left(\mathbf{1}-\eta_2 \boldsymbol{I}\right) \odot \boldsymbol{X}^{(s-1)}+\eta_2 \boldsymbol{I} \odot\left(\boldsymbol{Y}-\mathcal{K} \otimes \mathcal{M}^{(s)}\right)\right) \text {, } \tag{10}$
其中 $\operatorname{prox}_{\beta \eta_2}(\cdot)$ 依赖于 $p_2(\cdot)$ 对 $\boldsymbol{X}$ 和 $\boldsymbol{1}$ 的关系， $\boldsymbol{1}$ 是一个所有元素都为1的常数矩阵。

因为Eq.(8)和Eq.(10)只包含简单的算子，这种简洁的算法通过将每个涉及的算子分离和转换为特定的网络层来激发展开框架。请注意，我们建议使用网络模块从训练样本中自动学习隐式近邻算子 $\operatorname{prox}_{\alpha \eta_1}(\cdot)$ 和 $\operatorname{prox}_{\beta \eta_2}(\cdot)$ ，而不是手动预定义的正则器(见Sec. III)。

III. DEEP CONVOLUTIONAL DICTIONARY NETWORK

由于最近出现的深度展开技术在各种视觉任务中的成功，即去雾[45]、去训练[32]、[46]和反卷积[47]，我们提出通过随后展开方程中的每个迭代步骤来构建一个网络来解决特定的MAR问题(5)。(8)和(10)作为相应的网络模块。通过这种方式，所提议的网络有望对MAR任务具有特定的物理可解释性。

如图2所示，所提出的网络由S个阶段组成，对应于求解(5)的优化算法的S次迭代。第S阶段的模块将前一阶段的输出 $\boldsymbol{M}^{(s-1)}$ 和 $\boldsymbol{X}^{(s-1)}$ ，分别表示特征映射和伪像减少的CT图像)作为输入，并通过M-net和X-net计算更新后的 $\boldsymbol{M}^{(s)}$ 和 $\boldsymbol{X}^{(s)}$ ，这与公式中导出的优化算法的第S次迭代很好地对应Eq. (8)、Eq. (10)。

在这里插入图片描述

网络设计：我们将M和X的更新规则(8)和(10)分解为子步骤，并构建所提出的深度可解释卷积字典网络(DICDNet)的第s阶段如下：
$\begin{align} & \text { M-net : }\left\{\begin{array}{l} \widehat{\boldsymbol{A}}^{(s)}=\boldsymbol{Y}-\boldsymbol{X}^{(s-1)}, \\ \widetilde{\boldsymbol{A}}^{(s)}=\mathcal{K} \otimes \mathcal{M}^{(s-1)}, \\ \mathcal{E}^{(s)}=\boldsymbol{I} \odot\left(\widetilde{\boldsymbol{A}}^{(s)}-\widehat{\boldsymbol{A}}^{(s)}\right), \\ \mathcal{G}^{(s)}=\eta_1 \mathcal{K} \otimes^T \mathcal{E}^{(s)}, \\ \mathcal{M}^{(s)}=\operatorname{proxNet}_{\theta_m^{(s)}}\left(\mathcal{M}^{(s-1)}-\mathcal{G}^{(s)}\right), \end{array}\right. \tag{11} \\ & \text { X-net : }\left\{\begin{array}{l} \boldsymbol{A}^{(s)}=\mathcal{K} \otimes \mathcal{M}^{(s)}, \\ \widehat{\boldsymbol{X}}^{(s)}=\boldsymbol{Y}-\boldsymbol{A}^{(s)}, \\ \boldsymbol{X}^{(s)}= \\ \operatorname{proxNet}_{\theta_x^{(s)}}\left(\left(\mathbf{1}-\eta_2 \boldsymbol{I}\right) \odot \boldsymbol{X}^{(s-1)}+\eta_2 \boldsymbol{I} \odot \widehat{\boldsymbol{X}}^{(s)}\right), \end{array}\right. \tag{12} \end{align}$
式中， $\mathcal{K}$ 表示公共卷积层的网络参数(即卷积核)； $\operatorname{proxNet}_{\theta_m^{(s)}}(\cdot)$ 和 $\operatorname{proxNet}_{\theta_x^{(s)}}(\cdot)$ 是分别表示Eq.(8)和Eq.(10)中的近端算子的 $\operatorname{ResNets}$ ，所涉及的参数分别为 $\theta_m^{(s)}$ 和 $\theta_x^{(s)}$ 。

通过将Eq.(11)和Eq.(12)中的运算符逐步转换为相应的网络连接，我们可以很容易地建立网络架构，如图2所示。所有涉及的参数都可以端到端从训练样本中自动直接学习，无需任何预训练过程，包括 $\left\{\theta_m^{(s)}, \theta_x^{(s)}\right\}_{s=1}^S$ ，卷积核 $\mathcal{K}$ ，步长参数 $\eta_1$ 和 $\eta_2$ 。考虑到金属损坏CT图像的底层降解过程较为复杂，我们将重构结果 $\boldsymbol{X}^{(S)}$ 进一步细化，将其输入到与 $\operatorname{proxNet}_{\theta_x^{(s)}}(\cdot)$ 结构相同的额外ResNet中。

注：M-net和X-net都是可解释的，每个涉及的网络模块都有特定的物理含义。具体而言，如图2 (b)所示，M-net首先提取通过两种不同方式获得的残余伪影 $\mathcal{E}^{(s)}$ ，即在前一阶段使用伪影减少后的图像 $\boldsymbol{X}^{(s-1)}$ 估计 $\widehat{\boldsymbol{A}}^{(s)}$ ，然后使用估计的 $\mathcal{M}^{(s-1)}$ 基于卷积字典模型(2)生成 $\widetilde{A}^{(s)}$ 。 $\mathcal{E}^{(s)}$ 是乘以 $\mathcal{K}$ 的转置卷积内核得到改善梯度方向 $\mathcal{G}^{(s)}$ ，这里用于更新功能映射 $\mathcal{M}$ . 对于 X - net，它恢复了CT图像 $\widehat{\boldsymbol{X}}^{(s)}$ 使用当前的卷积核 $\mathcal{K}$ 和特征图 $\mathcal{M}^{(s)}$ ,然后融合估计的 $\widehat{\boldsymbol{X}}^{(s)}$ 与之前估计的 $\boldsymbol{X}^{(s-1)}$ 通过使用加权参数 $\eta_2$ 和 $\left(1-\eta_2\right)$ 生成最终更新的CT图像 $\boldsymbol{X}^{(s)}$ 。在网络实现过程中，我们将 $\mathcal{M}^{(0)}$ 初始化为0，并利用 $\boldsymbol{X}_{L I}$ 和一个简单的ResNet获得 $\boldsymbol{X}^{(0)}$ 。其中 $\boldsymbol{X}_{L I}$ 为传统LI方法重构的去伪影CT图像[11]，其ResNet结构与 $\operatorname{proxNet}_{\theta_x^{(s)}}(\cdot)$ 相同。在补充材料中提供了更多的细节。

值得强调的是，对于MAR任务，我们实现了广泛的具体设计，这为该任务带来了见解。具体来说，

模型的构建：我们分析了金属影响的CT图像的特征，提出了第一个基于图像域的分解模型(Eq.(1))，这对进一步去除非金属区域的伪影具有指导意义;
网络设计：综合分析先验，将非金属掩膜I适当嵌入到我们的DICDNet中，即金属总是比正常组织具有更高的CT值。这对于特征映射M和伪影减少图像X的正确更新方向是非常重要的;
网络实现：我们仔细初始化 $\boldsymbol{X}^{(0)}$ 并执行广泛的消融研究，以找到MAR任务的有效超参数，如补充材料所示。

更重要的是，与目前流行的双域策略不同，该方法为解决MAR问题提供了新的研究思路。研究表明，适当地嵌入先验结构可以合理地正则化和约束解空间，不仅可以有效地指导网络学习(见第V节)，而且可以显著提高模型的泛化能力(见第VI-C节)。在这方面，我们认为提议的DICDNet将成为MAR领域的潜在驱动力。

训练损失：为了训练所提出的DICDNet，我们在每个阶段对恢复的CT图像 $\boldsymbol{X}^{(s)}$ 和提取的伪影 $\boldsymbol{A}^{(s)}$ 执行监督，如Eq.12所示，因此总损失函数可表示为：
$\begin{gathered} {\mathcal{L}}=\sum_{s=0}^{s}\lambda_{s}{\boldsymbol{I}}\odot\left\|{\boldsymbol{X}}-{\boldsymbol{X}}^{(s)}\right\|_{F}^{2}+\gamma_{1}\left(\sum_{s=0}^{s}\lambda_{s}{\boldsymbol{I}}\odot\left\|{\boldsymbol{X}}-{\boldsymbol{X}}^{(s)}\right\|_{1}\right) \\ +\gamma_2\left(\sum\limits_{s=1}^S\lambda_s\boldsymbol{I}\odot\left\|\boldsymbol{Y-X-A^{(s)}}\right\|_1\right), \end{gathered} \tag{13}$
其中X为ground truth无金属CT图像。在所有实验中，我们经验地将 $\lambda_{S}$ 设为1， $\lambda_{s}(s = 0,1，···，S−1)$ 设为0.1； $\gamma_1$ 和 $\gamma_2$ 用于平衡不同的损失项，经验设置为5 × 10⁻⁴。

IV . DETAIL DESCRIPTIONS

A. 合成数据

按照[3]中的数据模拟方案，我们从DeepLesion数据集[48]中随机选取1200张无金属的CT图像，并从[1]中收集100张不同大小和形状的金属掩模，生成金属损坏图像。这90个掩模和1000张无金属CT图像用于合成训练样本(在训练过程中，我们在线选择样本，详见训练细节)，而剩下的10个掩模与剩下的200张无金属CT图像配对用于合成测试数据(即2000张配对的金属损坏/无金属CT图像)。所选的10个金属植入物的尺寸为：[2061,890,881,4551,254,124,118,112,53,35]像素。与[2]，[4]类似，我们简单地将每两个尺寸连续的掩模分成一组(对应400对图像)进行MAR性能评估。按照[1]，[3]，[4]的步骤，我们可以模拟成对的X和y。所有的CT图像被调整为416 × 416像素，640个投影视图在0-360度之间均匀间隔。此外，为了评估跨体点泛化性能，采用干净的牙科CT图像[3]，在DeepLesion上执行相同的仿真协议下生成相应的金属损坏图像。

B. 临床数据

我们基于SpineWeb6和CLINIC-metal这两个公开的临床数据集来评估我们方法的临床可行性[49]。与[50]类似，我们选择了来自SpineWeb的椎骨定位和识别数据集，该数据集包含大量带有金属植入物的CT图像。使用预处理方案[50]，我们可以获得金属损坏的CT图像进行测试。CLINIC-metal数据集用于骨盆骨折分割，该数据集由14个金属损坏的体积组成，其中包含多个骨结构(即骶骨、左髋关节、右髋关节和腰椎)的逐像素注释。所有临床图像均采用与合成数据相同的成像几何结构进行处理。与[3]、[50]一致，临床金属口罩的分割阈值为2500 Hounsfield Units (HU)。

C. 性能指标

对于合成数据，我们采用典型峰值信噪比(PSNR)和结构化相似度指数(SSIM)与代码[1]进行定量评价。对于SpineWeb，我们只提供他们的MAR结果用于视觉比较，因为没有金属的CT图像。对于CLINIC-metal，我们首先提供视觉伪影减少的结果。然后，我们使用干净数据训练的分割网络对不同MAR方法产生的伪影去除结果进行下游多骨结构分割，以进行定量评估。采用Dice系数(DC)作为分割性能评价指标。

D. 训练细节

提出的DICDNet是使用PyTorch实现的[33]。使用(β1， β2) =(0.5, 0.999)的Adam优化器[51]来训练我们的模型。初始学习率为2 × 10⁻⁴，每30次除以2。在NVIDIA Tesla V100-SMX2 GPU上，经过100次训练(批量大小设置为16)，该框架被观察到收敛。在每个epoch中，我们从金属损坏的CT图像中随机裁剪16 × 1000个大小为64 × 64像素的补丁进行训练，如图3所示。与[3]类似，在每次训练迭代中，我们分别从训练图像池(1000张图像)和训练掩模池(90张掩模)中随机选取1张无金属CT图像和1张合成金属掩模，合成金属损坏的CT图像。

在这里插入图片描述

V. MODEL VERIFICATION

A. 级数 S

我们进行了消融研究，以评估S级对DICDNet的MAR性能的影响。评估结果如表1所示。

在这里插入图片描述

在S = 0的情况下，我们直接将初始化X(0)视为重构图像，不涉及M-net和X-net的交替更新。以S = 0为基准，很容易观察到，我们的方法仅用两个阶段就实现了对金属伪像去除的显著改进，这表明M-net和X-net之间相互学习的有效性。此外，随着S的增加，改进幅度逐渐降低，S = 13时的性能略高于S = 10时的性能。因此，对于较少的参数，我们在所有实验中将S设置为10。

B. 网络可解释性

在这里，我们通过可视化网络模块底层的工作机制来验证我们提出的网络对于特定 MAR 任务的可解释性。图4显示了不同阶段恢复的图像 $\boldsymbol{X}^{(s)}$ 和提取的伪像 $\boldsymbol{A}^{(s)}$ 。

在这里插入图片描述

可以观察到，随着s的增加，学习到的 $\boldsymbol{A}^{(s)}$ 覆盖的伪影更多，即接近ground truth伪影层A。相应的，重构的CT图像 $\boldsymbol{X}^{(s)}$ 也逐渐得到改善，这证实了显式先验模型以及M-net和X-net的相互促进，可以朝着正确的方向优化整个框架，实现准确的金属伪影去除。这种可解释的学习过程是我们迭代结构的内在本质。

从Sec. III的网络设计，到Sec. III注释的网络分析，再到图4所示的网络可视化，每个网络模块的作用都可以被一般用户很容易理解，整个网络具有相对清晰的可解释性。

C. 模型可视化

为了研究DICDNet学习到的先验知识，对于图4中的退化样本 $Y$ ，我们将学习到的核 $K_n$ 和特征映射 ${M}_n$ 可视化到图5中。可以看出，本文提出的网络能够根据Eq.(2)中的先验模型显式地提取出伪影层。并且，左上角所示的学习到的核字典 $\mathcal{K}$ 包含了代表不同类型金属伪影的多样而清晰的模式，这合理地验证了我们方法的可行性，也体现了我们提出的独特性。这种有效的先验模型的适当嵌入使每个阶段提取的伪像层规范化，从而使我们的网络能够以更好的可靠性恢复伪像减少的图像。

在这里插入图片描述

VI. EXPERIMENTAL RESULTS

在本节中，我们通过模型可视化和综合对比实验验证了我们的DICDNet的有效性。

A. 合成DeepLesion实验结果

我们将DICDNet与SOTA MAR方法进行了比较，包括光束硬化校正(BHC)[8]、传统LI[11]、NMAR[12]、基于dl的CNNMAR[1]、DuDoNet[2]、DSCMAR[3]和dudonet++[4]。对于BHC、LI、NMAR和CNNMAR，我们直接使用发布的代码。对于DuDoNet、DSCMAR和dudonet++，我们重新实现了它们，因为没有官方代码。

表二报告了不同金属尺寸的定量比较。

在这里插入图片描述

可以看出，所提出的DICDNet实现了所有金属尺寸的最佳PSNR和SSIM，证实了我们方法的可行性和通用性。不同类型金属种植体的视觉MAR结果如图6所示。

在这里插入图片描述

可以观察到BHC不能去除由于物理校正方案的限制而产生的伪影。LI、NMAR和CNNMAR可以去除明显的条纹伪影，但会在重建的CT图像中引入新的伪影。其根本原因是校正后的正弦图的不连续性。尽管DuDoNet和DSCMAR在视觉上优于其他基准测试算法，但在重建图像中仍然可以观察到一些伪影。DuDoNet++在一定程度上模糊了器官的详细信息，因为它采用了一般的图像增强模块，没有对细节进行细化，从而得到最终的伪像去除结果。相比之下，由于对提取的金属伪像进行了先前的正则化，我们的DICDNet不仅去除了更多的伪像，而且保持了更多的忠实细节。更多的分析和比较结果见补充资料。

B. 合成Dental实验结果

图7为不同补牙数量的牙齿CT合成图像的MAR视觉结果。需要注意的是，所有的deep MAR方法都是在合成的DeepLesion数据上进行训练(重点是腹部和胸部)，并直接在牙科CT图像上进行测试，以评估模型的泛化性。

在这里插入图片描述

相应的定量结果列于表三。

在这里插入图片描述

由于所提出的卷积字典模型的明确指导，与其他MAR方法相比，所提出的方法可以更准确地识别伪影并完成伪影减少的CT图像的竞争性重建。结果表明，该方法具有较好的跨体体(从腹/胸CT到口腔CT)泛化能力。在补充材料中提供了更多的讨论。

C. 临床数据实验结果

1) SpineWeb性能对比

图8显示了SpineWeb上选择的临床金属影响CT图像的视觉对比。在这里，所有的深度MAR方法都是在合成数据上训练的。

在这里插入图片描述

如图8所示，BHC生成的结果中有明显的伪影。LI和NMAR引入了次要伪影。CNNMAR留下了一些轻微的条纹伪影，DuDoNet模糊了组织。DSCMAR和dudonet++不能去除明显的暗阴影。现有MAR方法导致MAR性能下降的主要潜在原因之一是合成数据(腹部和胸部CT)与SpineWeb(脊柱CT)之间存在较大的域间隙。相比之下，我们的方法可以去除更多的阴影和条纹，而不会引入新的伪影。这很好地证明了我们的DICDNet具有出色的泛化能力。

D. 临床-金属性能比较

我们首先利用临床无金属数据集，即CLINIC[49]，其中103个无金属体积(35,518片，512 × 512像素)标记为多骨结构，以训练用于骨盆分割的U-Net。然后，将训练好的U-Net在合成数据上经过良好训练的不同MAR方法生成的去伪影临床金属CT图像上进行测试。

表IV报告了骶骨、左髋、右髋和腰椎四个骨结构的分割精度。不难看出，在目前基于SOTA DL的MAR方法中，由于合成数据(腹胸部CT)与临床数据(骨盆CT)差距较大，性能提升并不明显。即使在如此具有挑战性的测试场景下，所提出的DICDNet仍然对所有骨结构实现了最佳的分割精度，这表明我们的DICDNet具有良好的泛化能力和巨大的临床应用潜力。

在这里插入图片描述

图9为一幅条纹伪影极其严重的临床CT图像的MAR和分割结果。由于使用了结构先验知识，我们的DICDNet可以去除更多的伪影，以更详细的信息还原CT图像，有效地提高了骶骨、右髋关节等骨结构的分割精度。有关更多结果，请参阅补充文件。

在这里插入图片描述

E. 计算效率

表V列出了相互竞争的MAR方法(即DuDoNet、DSCMAR、DuDoNet++和DICDNet)的网络参数数量和平均推理时间。与列出的基准测试方法相比，我们的DICDNet可以被视为一个轻量级网络，在相当的推理时间内实现了更好的MAR性能。实验结果表明，该方法具有良好的计算效率，具有实际应用的潜力。

在这里插入图片描述

F. 讨论

通过仔细观察上述实验中重建的CT图像，我们可以发现几乎所有的对比方法都会在一定程度上造成假结构。为了更好地证明这一点，我们对金属植入物周围的ROI进行了更仔细的研究，如图10所示。从图中可以看出，在所有的伪影还原图像中，金属植入物周围的原始软组织都缺失了，并且引入了一些虚假的信息。所有的MAR方法都没有获得令人满意的ROI PSNR/SSIM分数。

在这里插入图片描述

针对这一具有挑战性的问题，一种可能的解决方案是，我们可以设计一个数据驱动的框架来自适应地识别金属区域 $(1 - I)$ ，而不是利用手工制作的阈值来粗分割金属植入物。然后，将金属分割结果整合到所提出的迭代网络框架中，有助于提高DICDNet在细化解剖结构方面的鲁棒性。在未来，这一问题的提出仍有很大的空间值得进一步探索。

VII. CONCLUSION

本文针对金属伪影还原(MAR)任务，分析了金属影响CT图像的特征，提出了一种基于图像域的分解模型。然后，我们探索了金属伪影的底层先验结构，并明确地构建了一个卷积字典模型。为了解决这一问题，提出了一种仅使用简单算子的迭代算法。通过将每个涉及的算子展开到相应的网络层，自然构建了一个深度可解释卷积字典网络(DICDNet)。DICDNet的特点是将金属工件的内在先验性明确编码到整个网络框架中，有助于规范网络学习，并且每个模块都有其物理意义，便于理解工作机制。在综合和临床数据集上进行的大量实验证实了我们的DICDNet具有良好的可解释性和优越的泛化性。作为一种仅限图像域的方法，DICDNet可以作为插件模块更容易地集成到当前的计算机辅助诊断系统中。

此外，如第VI-F节所述，通过不同的MAR方法重建的去伪影CT图像包含一些假结构，特别是金属植入物周围。未来，重建质量仍有很大提升空间。