巩膜分割论文:ScleraSegNet: an Improved U-Net Model with Attention for Accurate Sclera Segmentation

ScleraSegNet: an Improved U-Net Model with Attention for Accurate Sclera Segmentation
巩膜分割网:一种改进的带注意力机制的U-Net模型,用于精确的巩膜分割
中科院:Caiyong Wang 孙哲南
Abstract
准确的巩膜分割是成功识别巩膜的关键。然而,文献中关于巩膜分割算法的研究仍然有限。本文提出了一种基于改进U-Net模型的巩膜分割新方法——ScleraSegNet。对U-Net模型的结构进行了深入分析,提出在U-Net的收缩路径和扩展路径之间的中心瓶颈部分嵌入一个注意模块,以增强识别表示的学习能力。我们比较了不同的注意模块,发现信道注意在提高分割网络性能方面是最有效的。此外,我们还评估了数据增强过程对提高分割网络泛化能力的有效性。实验结果表明,该方法的最优配置在UBIRIS.v2和MICHE上分别达到了91.43%、89.54%的F-measure值。

  1. Introduction
    巩膜是眼球外层环绕虹膜的白色物质。每个人的巩膜血管结构都是独特的,可以用于身份识别。巩膜识别最初是作为虹膜识别的辅助技术,特别是在眼侧角度或轴向偏移[8]时,虹膜与巩膜信息融合可以提高虹膜生物特征识别的适用性。最近,巩膜作为一种独立的生物特征开始被广泛研究[1,11]。完整的巩膜识别该过程通常包括5个步骤:巩膜图像采集、巩膜分割、巩膜血管特征提取、模板匹配和决策[23]。与预处理阶段一样,巩膜分割对巩膜识别的准确性有很大影响。不正确的巩膜分割可能导致包含在血管中的与身份相关的信息丢失,或引入其他使人分心的纹理,如眼睑和睫毛,都损坏巩膜识别的精确度。
    在这里插入图片描述
    图1所示。第一列显示不同数据集的巩膜图像。第二列显示了由[14]手工标记的巩膜分割ground truths。通过使用改进的U-Net与CBAM[20],我们的方法在多数据集取得了较高的分割精度,如第三列。第四列是与ground truth相比较的分割误差,其中绿色和红色像素分别代表假阳性和假阴性像素。

为了促进先进的sclera分割算法的发展,到目前为止,已经在BTAS、ICB、IJCB等主要的生物特征会议上举办了四场比赛[3,4,5,6]。在巩膜分割的初步探索中,采用了许多传统的分割算法,如像素聚类或使用支持向量机分类器手工制作特征描述符来完成分割任务。随着深度学习的发展,基于全卷积网络(FCN)的分割算法成为主流,并在巩膜分割方面取得了最新的性能。现有的大部分基于FCN的巩膜分割方法直接将现有的语义分割模型,如SegNet [2], RefineNet[12],应用于巩膜图像分割,只需简单地将分割类别从N改变为2(巩膜区域vs背景)。此外,Lucio等[14]分别提出了两种新的基于全连通网络和生成对抗性网络的分割方法。他们的方法分为两个步骤:第一步是眼周区检测,缩小分割范围,并在被检测的patch中形成硬化。虽然他们的最佳性能方法优于SegNet,但它不是一个端到端解决方案,而且具有较高的计算复杂度。
本文提出了一种新的巩膜分割方法——ScleraSegNet。该方法基于简单有效的语义分割模型U-Net[17]。我们不是简单地将U-Net应用到巩膜上,而是通过嵌入注意机制来进行重大改进。注意机制帮助U-Net提取更多的鉴别特征,从而减轻噪声干扰,因此改进后的U-Net在多个巩膜数据集上实现了高精度的分割结果,如图1所示。并对训练过程和实验结果进行了深入分析。本文的主要贡献如下:1)对原有的U-Net模型进行了引入注意机制的改进,并评价了注意机制对分割网络性能的改善效果;2)评估数据增强对提高分割网络泛化能力的有效性;3)我们进行了大量的实验,证明了该方法在多个数据集上取得了领先的性能。
本文的其余部分组织如下。在第2节中,将详细描述所提出的方法和培训/测试过程。第3节给出实验结果和详细分析。最后,我们在第4节中对本文进行了总结
2. Technical details
提出的ScleraSegNet是基于U-Net[17]构建的。但是,与原有的U-Net相比,我们在收缩路径和扩展路径的中心瓶颈部分引入了一个注意力模块,以学习更多区分巩膜和非巩膜像素的特征。我们首先在2.1节介绍了ScleraSegNet的架构。然后在2.2节中详细描述了具有不同注意模块的瓶颈架构。最后,我们在2.3节中介绍了ScleraSegNet的训练和测试过程。
2.1. Structure of ScleraSegNet
在这里插入图片描述
图2。ScleraSegNet框架概述。通道的数量在每个框的左下角标注。以彩色观看效果最佳。
ScleraSegNet的网络架构如图2所示,它由一个收缩路径和一个对称扩展路径组成。收缩路径采用VGG16把全连接的层丢弃作为编码器。该编码器由一系列卷积单元组成,每个卷积单元包括一个卷积层、一个批处理归一化层和一个ReLU激活层。在每个卷积单元后,采用stride 2的2×2最大的池化层进行下采样。随着网络的深入,通道的数量逐渐增加,而feature map的大小逐渐减小。为了恢复收缩路径池化层丢失的空间信息,同时减少信道数量,扩张路径采用一系列双线性上采样操作,然后进行两个3×3卷积单元。然后,通过跳跃连接将收缩路径的高分辨率特征和扩展路径的上采样输出连接起来,以实现更精确的定位。此外,在收缩路径和扩展路径之间的中心瓶颈部分可以编码最强大、最具区别性的语义特征最后,使用1×1卷积层和s型激活函数输出巩膜分割的概率图,其大小与原始输入相同。
2.2. Bottleneck architecture
正如前一节所讨论的,在收缩路径和扩展路径之间有一个中心瓶颈部分(图2中用粉红色突出显示)。在原UNet[17]中,瓶颈部分由几个卷积单元组成,这些包含了从收缩路径中收集到的高级语义信息,这些有代表性的语义信息被传播到后面的扩展路径中。因此,瓶颈部分对最终预测的分割掩模有着深远的影响。
***一般来说,瓶颈部分的信息特征可以在空间上或通道上分解。空间特征将与这些物体相关的最重要的位置信息编码,而通道特征聚焦于关于分割对象的语义类别[15,20]。***为了使瓶颈部分能够提取出更有代表性的特征,使网络聚焦于最重要的信息,本文采取了几个必要的步骤,***包括重新估计特征图的空间分布和自适应地重新校准各信道的特征响应。
(重点)
在接下来的部分,我们将介绍四种类型的注意力模块,它们被嵌入到瓶颈部分来实现上面提到的目标。作为基线,我们还介绍了原始U-Net的瓶颈部分。详细的瓶颈架构如图3所示。
图3(a)显示了基线架构。更具体地说,对于给定的输入特征图,首先将步长为2的2×2最大池操作应用于下采样
用于进一步特征提取的大小。然后,将融合后的特征映射分成两部分,一部分是双线性插值操作和两个卷积单元,另一部分是等价映射(就是一根线连接过来)。最后,这两个部分是通过通道串联组合在一起。
我们关注的其他瓶颈架构在嵌入注意力模块的类型上有所不同,如图3 (b)、©、(d)和(e)所示。尽管这些瓶颈网络的详细组成不同,但它们共享相同的总体架构。具体来说,给定输入的feature map F∈R512×H×W,首先对F进行stride 1的3×3 max pooling操作,得到保持feature size不变的精化feature map P∈R512×H×w,最后计算判别feature map F’为:
F′= P ⊕ {P ⊗ M§} (1)
其中
*M §∈R512* H*W,是推断出的3 d注意力图,
**。从等式中,我们可以看到,合并的特征图是通过与三维注意力图逐像素相乘自适应地更新的。此外,还将原始合并后的feature map与更新后的feature map进行拼接存储,将其他有价值的信息保留在原始输入信号中。这样的设计使得原本的特征更加精致,更加有区别。此外,上述瓶颈架构之间唯一的区别是M§的具体架构,后面将对其进行进一步介绍和比较。
2.2.1 Channel attention module
通道注意模块(CAM)首先在SENet[9]中引入,然后在BAM[15]中发展。**它有望通过明确地建模通道之间的相互依赖关系,自适应地重新校准通道方面的特征响应。**信道注意模块包含一个压缩块,它在feature map P上获取全局平均池化来生成信道矢量Fc,然后是一个激励块,它使用带有一个隐藏层的多层感知器(MLP)来从信道矢量Fc估计出通过信道的注意力。更准确地说,给定合并的feature map P,信道注意模块计算为:
在这里插入图片描述
其中W0∈R256×512,b0∈R256, W1∈R512×256,b1∈R512, GAP是沿空间轴的全局平均池化,而?是将Mc§的输出范围归一化到[0,1]的sigmoid函数。需要注意的是,初始生成的通道注意图M§∈R512×1,需要沿空间维数进行广播,以匹配原始输入的维数,即R512×H×W。
在这里插入图片描述
图3。不同的瓶颈架构:(a) U-Net的简单特性连接;(b)频道注意模块(CAM);©的空间注意模块(SAM);(d)来自[15]的平行通道注意和空间注意模块(BAM);(e)来自[20]的顺序通道注意和空间注意模块(CBAM)。GAP和GMP分别代表全局平均池和全局最大池

2.2.2 Spatial attention module
在BAM[15]中引入了空间注意模块(SAM)。它期望学习一个空间注意图,以强调或抑制不同空间位置的特征。在数学上,SAM的函数可以表示为:
在这里插入图片描述
更具体地说,特征P∈R512×H×W的通道维数通过1×1卷积单元F1×1降为256。然后使用两个扩张值为4(dilation value of 4)的3×3扩张卷积(F3×3d =4)来扩大接受域,有效利用上下文信息。最后,通过单一的1×1卷积操作(f1×1)将feature map压缩为Ms§∈R1×H×w。此外,我们还使用了一个sigmoid函数(radial)将输出范围归一化到[0,1]。需要注意的是,初始生成的空间注意图M§∈R1 * H * w,为了与原始输入的维数匹配,需要沿着通道维数复制512次,即R512 * H * W。

2.2.3Parallel channel attention and spatial attention module 并行信道注意和空间注意模块
最近,Park等人提出了瓶颈注意模块[15],这是一种信道注意模块和空间注意模块的并行集成。对于给定的合并feature map P∈RC x H x W, BAM推断出3D注意力图M§∈R C x H xW为:
M§ = σ(Mc§ + Ms§) (4)
Mc§和Ms§分别在第2.2.1节和第2.2.2节中描述。注意,两个分支的输出在相加之前都被调整为R512×H×W。
2.2.4 Sequential channel attention and spatial attention module 顺序通道注意和空间注意模块
与BAM不同的是,***Woo等人提出了卷积块注意模块(CBAM)[***20],它是通道注意模块和空间注意模块的顺序连接。CBAM的channel attention module在average- pooling feature的基础上增加了max- pooling feature,因此新的channel attention module计算为:
在这里插入图片描述
其中GMP是空间轴上的全局最大池。给定通道注意图,计算通道注意过程为:
在这里插入图片描述
空间注意模块在通道注意模块的基础上,沿着通道轴将平均池化特征和最大池化特征进行聚合,其表达式如下:
在这里插入图片描述
其中GAPc(P’)和GMPc(P’)分别表示沿着通道轴的全局平均池和全局最大池。我们首先沿着通道轴应用全局平均池和全局最大池操作,并将它们连接起来生成一个有效的特征描述符。然后对拼接后的特征描述符进行7×7卷积运算,填充大小为3,再加上一个sigmoid函数,生成空间注意图Ms(P’)∈RH×W。
最终的空间注意过程计算为:
在这里插入图片描述
注意,与2.2.1节和2.2.2节相同,式(6)和式(8)的元素相乘时,注意图首先相应地广播或复制。
2.3. Network training and testing
由于巩膜分割可以看作是一项像素化的二值分类任务,因此使用***二值交叉熵损失函数***进行训练
该模型经过训练后,以任意大小的眼睛图像作为输入,输出与原始输入图像相同大小的巩膜的概率图。为了生成最终的分割结果,我们需要对预测的概率图进行阈值处理,得到一个使用一定阈值的二值掩码。具体来说,对于概率大于所选阈值的像素,二值掩码对应像素赋值为1,否则赋值为0。
3. Experiments
3.1. Datasets
在本节中,我们将详细描述在我们的实验中使用的三个数据集:UBIRIS.v2 [16], MICHEI[7]和MASD.v1[6]。在这些数据集中,**使用UBIRIS.v2和michei对提出的模型进行训练和评估。**受[14]的启发,将其分成三个子集,其中40%的图像用于训练,20%用于验证,40%用于测试。**MASD.v1并不用于模型训练或微调,而是直接用于测试。**表1总结了这些数据集的详细信息。
在这里插入图片描述
表1。在这项工作中使用的数据集的摘要。每个数据库都是对应的原始数据库的子集。
**UBIRIS.v2[16]最初是为较少约束条件下的虹膜识别而开发的。**数据集包括261名受试者的11,102张照片。底层巩膜分割面罩用[14]手工标记。
MICHE-I[7]最初是为移动虹膜识别而开发的。MICHE-I中的图像由三种移动设备在不受控条件下采集:iPhone5(IP5)、三星Galaxy S4(GS4)、三星Galaxy Tab2(GT2)(分别为1262、1297、632张)。UBIRIS.v2一样, ground-truth巩膜分割掩膜也由[14]手工标记。
MASD.v1[6]用于巩膜分割基准竞赛(SSBC)。每只眼睛都要捕捉4个凝视角度的图像(直看,左看,右看,上看)。在2015年的SSBC中,120张巩膜图像的子集和相应的地面真相面罩被提供给了学术界。然而,从比赛组织者那里得到的只有119张真实的图片。由于数据集中的图像数量很小,因此只用于测试
3.2. Evaluation metrics评价指标
为了定量地评价所提出的方法,我们将ground-truth值与预测的二值掩模图像进行像素比较,计算精度§、召回率®和
F-measure(F)
。在上述指标中,精度衡量的是巩膜像素正确检索的百分比。recall给出了在ground truth中被正确检索到的巩膜像素的百分比。将Fmeasure定义为precision和recall的调和平均值,以平衡这两个指标。
除了固定阈值的固定P/R/F值外,还可以通过改变决策阈值来评价整体分割性能,从而得到完整的精确-召回曲线(PR-curve)。在这种情况下,F-measure是在整个数据集的最优阈值下获得的。
3.3. Implementation Details
该架构是基于开放可用的caffe[10]框架实现的,并使用在ImageNet[18]上预先训练的vgg16模型进行初始化。其他超参数及对应值有:优化方法:随机梯度下降(SGD)、mini batchsize (4), base learning rate(10−3),learning rate adjustment method:“poly”policy with power set to 0.9, momentum (0.9), weight decay (0.0005), maximum iteration(30000)。
在实验中,我们通过
随机调整(0.5,0.75,1,1.25,1.5),平移(x,y[-30,30]),旋转([-60,60]),模糊(平均滤波,高斯模糊,中值模糊,双边滤波,盒形模糊),水平翻转,和裁剪(321×321为输入大小)来增强训练数据集。

3.4. Experimental results
3.4.1 Evaluation of different attention modules
在本节中,我们将评估所提出的ScleraSegNet的分割性能。首先,我们实现了原始的U-Net模型作为基线模型。然后,将四种不同注意模块的改进u型网与基线模型进行比较。除了网络结构之外,网络的其他方面都是一样的,如3.3节中介绍的数据扩充和训练过程。另外,所有的模型都是在UBIRIS.v2上和miches - i以及miches - i的三个子集上训练的,然后对它们进行测试。至于MASD.v1,我们直接使用它来测试在UBIRIS v2上训练的模型。UBIRIS v2与MASD.v1在光照、噪声分布、眼周区域占整个图像的位置和比例等方面相似。
PR-curve和F-measure是用于比较分割算法性能的评价指标,结果如图4所示。可以看出,采用不同注意模块的改良u型网在MICHE-I、MICHE-GS4、MICHE-IP5、MICHE-GT2和mas .v1上的表现优于
基线模型
。对于UBIRIS.v2,基线模型及其改进得到模型的PR-curves和f - measurements values差异很小。UBIRIS.v2和MICHE上存在巨大性能差距的原因,可能是UBIRIS.v2的图像相对集中,只包含眼周区域,而对于MICHE,我们需要增强原U-Net的特征表达能力,以抑制其他面部部位的影响,如鼻子、耳朵、前额、脸颊等。最后的实验结果验证了所提出的注意力模块对提高原UNet性能的有效性。MASD.v1的结果进一步表明注意模块也有利于原U-net的泛化能力。
在这里插入图片描述
图4。不同注意模块的U-Net和改进的U-Net在六个数据集上的平均精确召回曲线。

值得注意的是,尽管采用不同注意模块的改进u -net网在UBIRIS.v2和michei以及它们的子集上显示了相似的pr -曲线和f -测度值。它们在mas .v1上输出完全不同的分割结果。改进的U-Net用CBAM分割效果最好,F-measure值为83.77%,CAM、BAM和SAM次之,F-measure值分别为82.55%、80.67%和77.78%。仔细观察可以发现,对于分割任务的准确性来说,信道注意比空间注意更重要,这也是许多其他分割网络,如[21,22],也采用信道注意模块来提高网络性能的原因。

3.4.2 Evaluation of the effectiveness of data augmentation 评价数据扩充的有效性
数据增加是一种简单而有效的方法来丰富训练数据,加速网络的收敛,帮助网络避免过拟合。此外,我们还进一步证明了数据的增加也提高了网络的泛化能力。我们使用原始的U-Net作为实验模型(使用改进的U-Net得到的结果也是相似的),在UBIRIS.v2数据集上对U-Net进行有和无数据增强的训练。然后,我们在MASD.v1数据集对训练好的模型进行了测试。实验结果如图5所示。从结果中我们可以得出结论,在f -测度下,经过数据增强训练的U-Net的性能明显优于未经数据增强训练的U-Net,差了27.97%。因为我们没有在MASD.v1数据集上训练或微调模型。如此大的性能增益证明了数据增强对提高网络泛化能力的有效性。
在这里插入图片描述
图5。在MASD.v1数据集上U-Net生成的平均精确召回曲线。U-Net是针对UBIRIS.v2数据集,分别对应有和没有数据增加。
3.4.3 Comparison with other methods
我们还将该方法与[14]中表现最好的巩膜分割算法(即FCN)进行了比较。事实上,FCN是Multinet [19]的分割部分,其网络结构与[13]中早期的FCN8相似。表2列出了原U-Net、改进后的不同注意模块U-Net和FCN的召回率、精度和F-measure的总结。这里,为了简单起见,我们根据经验将阈值设置为0.5以获得最终的二进制掩码。通过对验证集进行交叉验证,可以获得较好的阈值。结果表明,除UBIRIS.v2外,所有的数据集中都显示出了上述结果。原始U-Net在f -测度上没有优于FCN,但提出的改进U-Net在f -测度上具有较大的平均值和较小或相对较小的标准差。此外,在大多数情况下,改进后的UNet在召回率和精度值方面也明显优于FCN。综上所述,改进后的带CBAM的U-Net在大多数情况下都取得了领先的分割性能,这与3.4.1节得出的结论一致。此外,采用CBAM的改进U-Net也具有较高的分割效率。对于一个400×300×3的输入图像,在12GB内存的NVIDIA TITAN Xp GPU上只需要0.05秒。
在这里插入图片描述
表2。FCN[14]与所提模型的性能比较。括号中的值表示标准差。f -测度作为方法排序的先验测度
4. Conclusions
本文介绍了一种改进的U-Net模型,即ScleraSegNet,用于**以端到端方式精确地分割巩膜。**改进后的U-Net模型与不同的注意模块相结合,可以使用有效的数据增强技术进行训练。在三个公共数据集上进行了大量实验,结果表明该模型能够准确地分割出巩膜区域,具有较高的鲁棒性。

猜你喜欢

转载自blog.csdn.net/zqx951102/article/details/108403562