前言

H-Dense混合模型提出2D DenseUNet，用来提取片内特征；3D的原始输入和2D DenseUNet转换之后的预测结果concat在一起送进3D网络，用来提取片间特征；然后将两者特征融合并经由HFF层预测最终结果。他是分割肝脏的。
这篇文章是利用3个输入,the 2D slice I1, its 3D contextual skull slices I2s and its contextual brain slices S2s.用3个共享参数的DenseNet网络提取数据特征，然后进入全注意力解码器解码输出最后分割结果。他是用于脑组织分割的。
论文：https://www.sciencedirect.com/science/article/pii/S1361841522003383
代码：https://github.com/nwuAI/CAN

一、为什么提出CAN

解决什么问题：由专业医师分析脑部磁共振成像费力、昂贵且效率低下，结果好坏依靠医师的技能。
难点：2D没有考虑切片之间的上下文信息，精度低，3D虽然考虑了上下文信息但是需要较高内存计算复杂度较高。Sun et al.和Ben-Cohen et al.虽然利用了相邻的切片但是不能充分利用三维信息。Li et al.提出了H-Dense U-net理解医学图像中切片的内部关系和上下文关系，在混合特征融合层进行协同优化，高效学习肝脏和肿瘤的分层特征用于分割。为了提取三维信息，Li et al.提出了一种使用2D图像切片作为CNN输入的ACEnet网络。ACEnet引入了颅骨剥离模块( Fischl , 2012)，引导分割网络更加聚焦于内部脑组织。然而，ACEnet的颅骨剥离模块仅作为解码器的输出；因此，无法获得所需的内部组织图像。

所以提出了CAN，用当前2D切片、其3D上下文颅骨切片和3D上下文脑切片作为输入，进一步利用DenseNet学习图片特征，然后用全注意力网络解码的到最后分割结果。

二、Method

在这里插入图片描述
提出了一个上下文辅助的全注意力网络，用DenseNet作为解码器去提取2D切片和包含上下文特征的3D数据中提取特征，用一个具有多种注意力机制的网络作为解码器来解码和融合，由于他充分考虑了颅骨对脑组织的约束，因此它可以有效地提高脑组织的分割精度。

2.1The encoder

2D切片I1，3D包含上下文信息的颅骨切片I2s，3D包含上下文信息的脑切片S2s作为输入，用3个共享参数的DenseNet网络编码，之后，用不同的方式进行融合。I1和I2s使用逐元素乘法，就是上图的紫色箭头。然后，将I1和I2s融合后的结果与S2s进行逐元素最大化操作，就是黄褐色虚线箭头。
下图就是DenseNet的细节图。

在这里插入图片描述

2.2 The decoder

解码器使用了不同类型的注意力机制，它们起到不同的作用。NLA用non-local block去获得图像中像素间的关系，有助于更好理解整个图片的全局结构。CA计算不同通道的权重。DSA融合不同尺寸的特征。
在这里插入图片描述
NLA在编码器输出，来捕捉编码器提取的图像特征之间的相互作用。解码器每一层都有CA，在CA之前有Conv1x1，是为了在DSA融合的时候（与同层的解码器）维度一致。解码器的每层的输出进入SA进行融合，改变通道数输出分割结果。
在这里插入图片描述
NLA结构如上图所示，通过4个不同的卷积得到4个不同的特征。其中两个特征减去它的平均值（白化，简单来讲，就是该信号的平均值为0，且各个分量之间互不相关。）进行相乘得到HWxHW的矩阵。最上层的那个特征进行expand+softmax操作，expand就是HWx16->HWxHW。然后这两个得到的结果相加，与最后一个特征相乘(得到注意力)，扩展维度然后残差连接得到NLA的输出。
在这里插入图片描述
CA通道注意力，自适应地重新校准每个通道的权重。经典的就是SE了。包括两各模块，Squeeze module挤压模块，就是把HWC的输入挤压成1x1xC输出，相当于每一个输出元素都包含整个HxW的感受野。excitation module就是激励模块，把挤压模块的输出经过非线性激活函数激活得到最后每个通道的权重。
这里的squeeze module使用了DCT, AVG, MAX三个操作进行全局信息的提取，比SE更加复杂，提取到的全局信息更丰富一些。（全局平均池化、全局最大池化和多频谱信道操作，获取各信道的平均值、最大值和频率信息）
在这里插入图片描述
DSA模块，下图。上图是AG模块。本质是空间注意力。DSA模块就是进行两次AG，然后把这两次得到的结果进行融合（这里就是concat+conv1x1+ReLU）

2.3 The output

在这里插入图片描述
SA，多尺度注意力模块。前面这一块很像通道注意力模块，我的理解是解码器不同层的输出代表了不同尺度的信息，用CA就是自适应地调整这些尺度的信息权重。它们做了CA后上面又进行了一系列操作，把CA结果和经过处理后的CA结果和输入进行加和得到最终的SA模块的输出。
然后用conv1x1得到最后分割结果。

2.4 Loss function

cross-entropy loss + Dice loss
Lloss = Lce+Ldice

三、实验

在这里插入图片描述
展示这个图片是表明相邻切片之间的信息是相似的，用相邻切片可以更好地利用上下文信息。.图中的上行和下行。8个分别是颅骨切片和脑切片。从图可以看出。8 这些用红色圆圈标记的上下文切片之间的差异相对较小。我们的CAN利用这些异同来提高细分性能
在这里插入图片描述
这里展示了，选取多少相邻的切片效果最好。采用的相邻切片选择过程如下：正常情况下，选择当前2D切片的左右S切片;如果当前的2D切片是3D MRI的第一个切片，选择了右边的2S切片，对于最后一个切片，我们选择了左边的2S切片。
与其他方法的结果比较。
在这里插入图片描述
Dice指标上是最好的。

分析了这些分割结果，CAN分割出的边缘是清晰的，精度更好。

在 Nemenyi test上测试，CAN的效果最好。