[论文阅读] Deep Transformers For Fast Small Intestine Grounding In Capsule Endoscope Video

论文地址：https://doi.org/10.1109/ISBI48211.2021.9433921
发表于：ISBI 21

Abstract

胶囊内窥镜是一种用于检查和诊断难治性胃肠道疾病的进化技术。由于数据量巨大，分析胶囊内窥镜视频对胃肠道医学家来说是非常耗时耗力的。因此，开发智能长视频分析算法，对胶囊内镜视频进行区域定位和分析，对于减轻临床医生的工作量和协助提高疾病诊断的准确性至关重要。在本文中，我们提出了一个深度模型，从持续时间长达几十个小时的胶囊内窥镜视频中，对小肠的拍摄范围进行定位。这是首次尝试使用深度神经网络方法来解决小肠的定位任务。我们将该任务建模为一个三相分类问题，其中每一帧视频都被归类为食道/胃、小肠或结直肠。为了探索长距离的时间依赖性，我们建立了一个Transformer模块来融合多个相邻帧的特征。基于分类模型，我们设计了一种高效的搜索算法，以有效地定位小肠的起始和结束拍摄边界。在没有在完整的视频中穷举搜索小肠的情况下，我们的方法是通过沿中间的目标边界方向迭代分离视频段来实现的。我们从一家本地医院收集了113个视频来验证我们的方法。在5折交叉验证中，由我们的方法定位的小肠段与由广泛认证的胃肠病学家标注的真值之间的平均IoU达到0.945。

Method

本文解决的是这么一个任务：给出一段(很长的)视频，从中定位出小肠出现的起始帧与结束帧，从而减轻人工阅片的压力，此谓Intestine Grounding(肠道定位)。那么这其实就是个分类问题，因为所有帧都属于三类：A)食道/胃，B)小肠，C)结直肠。网络结构如下所示：
在这里插入图片描述
从网络结构上讲没有特别好说的，这里使用了CNN Encoder+Transformer Decoder的设计，引入Transformer主要是为了更好的处理视频时序数据的上下文信息。本文的亮点在于搜索算法。由于整个视频是非常长的，因此逐帧分类的效率是十分低下的(相对应的，这么做准确度确实也最高)。本文的搜索算法如下：
在这里插入图片描述
大致意思就是，从整段视频中间开始，不断向右或者向寻找。如果当前位置是大肠，则向更晚的帧寻找；否则，则向更早的帧寻找。这一思路的动机也很简单，因为视频帧的顺序为固定食道/胃=>小肠=>大肠(内窥镜的插入顺序)，所以可以通过这种二分的方式来快速找到起止位置。