摘要

采用了一个多尺度强化学习（RL）代理框架，并广泛地评估了3种基于深度q-网络（DQN）的策略。(DQN，DDQN，Duel DQN，Duel DDQN)

使用解剖标志和检测平面之间的距离，以及它们的法向量和目标之间的角度来评估结果。

该算法在脑MRI的中矢状面和前后连合平面以及心脏MRI常用的4室长轴平面上进行评估，其精度分别为1.53mm、1.98mm和4.84mm。

实时，无需标注

方法

状态State

我们的环境E由一个3D扫描表示，s是一个包含p的3D感兴趣区域。

一个帧历史缓冲区用于存储之前步骤中的最后一个平面，以稳定搜索轨迹，并防止在重复循环中卡住。

选择了一个类似于[9]的4帧的历史大小。

动作Action

动作定义为对平面参数的增量调整。与[1]类似，完整的动作空间定义为8个动作，

即A=

给定一个动作，平面参数被相应地修改。

对每次迭代只调整一个平面参数，其他参数保持不变。

智能体执行动作后，平面参数相应更新为

奖励Reward

在本研究中，奖励被定义为agent是否接近或远离目标

sgn（·）为符号函数。

Pt t时刻预测平面的平面参数（Pt，t时刻 plane）

Pg 目标真实平面（Pg，ground plane）

欧几里德距离

R∈{−1,0，+1}，

其中+1和−1分别表示正运动和负运动，0表示没有调整。

终端状态Terminal State

当目标状态达到[7]时，可以使用一个触发动作来发出信号。

然而，添加额外的动作会增加动作空间的大小，这反过来可能会增加要学习的任务的复杂性。

在这种设置中，也应该定义交互的最大数量。

我们发现，当振荡被检测到时，终止事件在实践中是有效的，而不需要扩展动作空间。

然而，与[3]相比，我们选择了q值较低的终止动作。

我们发现，当目标平面越接近时，q值就越低。

直观地说，当当前平面远离目标时，DQN鼓励授予动作更高的q值。

多尺度代理

为了提供更多的结构信息，我们引入了一种新的多分辨率方法，以一种从粗到细的层次操作步骤。在这种情况下，E采样了围绕平面原点Po和初始间距（Sx、Sy、Sz）mm周围的固定平面大小（Px、Py、Pz）的网格。

最初，代理会搜索具有较高操作步骤的平面。

一旦找到目标平面，E将以较小的间距对新平面进行采样，代理将使用较小的动作步骤。

层次结构中的粗级别通过允许代理看到图像的图像上下文，为优化过程提供了额外的指导。然而，更精细的尺度为平面的最终估计提供了更清晰的调整。

同样，较大的步长动作加速了向目标平面的解，而较小的步长微调了平面参数的最终估计。

所有的级别都在层次结构中共享相同的DQN。

背景

实验

数据集

从ADNI数据库[10]中获得了832个各向同性1mm MR扫描来评估所提出的方法。

而728张和104张图像的子集则用于训练和测试。

所有的大脑图像都被颅骨剥离，并与MNI空间亲和对齐，从而允许在标准方向上提取地面真实平面。

对于心脏图像，我们使用从英国数字心脏项目[8]获得的455短轴心脏分辨率（1.25×1.25×2）mm

364和91张图像的子集用于训练和测试。

ACPC平面采用AC和PC地标进行距离误差计算。同样，我们使用胼胝体压部的外侧、下尖和内向点作为中矢状面。

对于心脏MRI，我们使用投射在4室平面上的6个标志物；两个右心室（RV）插入点、左右心室（LV）侧壁转折点、心尖和二尖瓣中心，见图2(c)。

图2：来自大脑和心脏MRI扫描的地面真实平面。(a) ACPC轴向平面，标记AC（红色）和PC（黄色）点。(b)胼胝体压部的中矢状面，带有外侧（绿色）、下尖（黄色）、内侧（红色）点。(c)4-腔室视图，投影两个右心室插入点（紫色、绿色）、右心室和左心室侧壁转折点（蓝色、石灰）、心尖点（橙色）和二尖瓣中心（红色）。

训练

从三维输入图像中采样一个随机点。

然后利用图像中心和随机点之间连成的法向量来定义初始随机平面。这个平面的原点是输入图像中心的投影点。

最后，在平面原点周围采样一个尺寸（50、50、9）体素的平面，初始间距为3×3×3 mm。

初始等于8，ad等于4。

每增加一个新的量表，减少2倍，ad减少1个单位。

脑实验采用3级3~1mm间距的尺度，心脏实验采用4级5~2mm间距的尺度。

在心脏图像的实验中，从图像中心周围20%范围内的三维输入图像中随机采样初始平面，以避免在视场外采样。

结果

在推理过程中，环境对一个平面进行采样，代理依次更新新平面的参数，直到达到终端状态。

为了对该方法的不同变量进行公平的比较，我们在评价过程中确定了所有模型的初始平面。表1显示了这些比较实验的结果。所有的方法都具有相似的性能，包括速度和准确性，而且最好的整体方法并没有唯一的赢家。检测中矢状面和ACPC面的最佳精度分别为1.53±2.2 mm和2.44±5.04◦，1.98±2.23mm和4.48±14.0◦。在心脏方面，由于不同扫描之间的较低质量和较高的可变性，任务更为复杂。代理与大脑图像相比，必须在更大的视野中导航。因此，基于Duel DQN的体系结构在检测4室平面时具有4.84±3.83.03mm和8.86±12.42◦精度，这是通过与动作值函数解耦学习更好的状态值函数的结果。这些结果优于最先进的[6]，它达到了5.7 ± 8.5mm和17.6±19.2◦的精度。与[6]不同，我们的方法不需要手动标注地标。更多的可视化结果将发布在我们的github上。

表1：我们的多尺度RL代理检测3个不同的MRI平面的结果

条件

使用NVIDIA GTX 1080Ti GPU的训练时间约为12−24小时，心脏实验的训练时间约为2−4天。

在推理过程中，代理使用迭代步骤找到目标平面，其中每个步骤的∼值为0.02s。

我们建议的DQN网络的细节如图1所示。我们实现的源代码可以在github https://git.io/vhuMZ上公开获得。

接下来的工作

将研究使用连续动作空间，通过固定的操作步骤减少量化误差来提高性能。我们还将探索使用竞争或协作的多主体来检测相同或不同的解剖平面。另一个未来的方向是受AlphaGo [11]的启发，RL代理可以模仿人类专家的动作并积累经验，从而在实时观察中向经验丰富的操作员学习。

References

1. Ardekani, B.A., Kershaw, J., Braun, M., Kanuo, I.: Automatic detection of the

mid-sagittal plane in 3-D brain images. TMI 16(6), 947–952 (1997)

2. Bellman, R.: Dynamic programming. Courier Corporation (2013)

3. Ghesu, F.C., Georgescu, B., Zheng, Y., Grbic, S., Maier, A., Hornegger, J., Comani

ciu, D.: Multi-Scale Deep Reinforcement Learning for Real-Time 3D-Landmark

Detection in CT Scans. PAMI (2017)

4. Le, M., Lieman-Sifry, J., Lau, F., Sall, S., Hsiao, A., Golden, D.: Computationally

effiffifficient cardiac views projection using 3D Convolutional Neural Networks. In:

Deep Learning in Medical Image Analysis and Multimodal Learning for Clinical

Decision Support, pp. 109–116. Springer (2017)

5. Liao, R., Miao, S., de Tournemire, P., Grbic, S., Kamen, A., Mansi, T., Comaniciu,

D.: An Artifificial Agent for Robust Image Registration. In: AAAI. pp. 4168–4175

(2017)

6. Lu, X., Jolly, M.P., Georgescu, B., Hayes, C., Speier, P., Schmidt, M., Bi, X.,

Kroeker, R., Comaniciu, D., Kellman, P., et al.: Automatic view planning for car

diac MRI acquisition. In: MICCAI. pp. 479–486. Springer (2011)

7. Maicas, G., Carneiro, G., Bradley, A.P., Nascimento, J.C., Reid, I.: Deep Reinforce

ment Learning for Active Breast Lesion Detection from DCE-MRI. In: MICCAI.

pp. 665–673. Springer (2017)

8. de Marvao, A., Dawes, T.J., Shi, W., Minas, C., Keenan, N.G., Diamond, T.,

Durighel, G., et al.: Population-based studies of myocardial hypertrophy: high reso

lution cardiovascular magnetic resonance atlases improve statistical power. Journal

of Cardiovascular Magnetic Resonance 16(1), 16 (2014)

9. Mnih, V., Kavukcuoglu, K., Silver, D., et al.: Human-level control through deep

reinforcement learning. Nature 518(7540), 529 (2015)

10. Mueller, S.G., Weiner, M.W., Thal, L.J., Petersen, R.C., Jack, C., Jagust, W.,

Trojanowski, J.Q., Toga, A.W., Beckett, L.: The Alzheimer’s disease neuroimaging

initiative. Neuroimaging Clinics 15(4), 869–877 (2005)

11. Silver, D., Huang, A., Maddison, C.J., Guez, A., Sifre, L., Van Den Driessche, G.,

Schrittwieser, J., Antonoglou, I., et al.: Mastering the game of go with deep neural

networks and tree search. nature 529(7587), 484–489 (2016)

12. Stegmann, M.B., Skoglund, K., Ryberg, C.: Mid-sagittal plane and mid-sagittal

surface optimization in brain MRI using a local symmetry measure. In: Medical

Imaging: Image Processing. vol. 5747, pp. 568–580 (2005)

13. Sutton, R.S., Barto, A.G.: Reinforcement learning: An introduction, vol. 1. MIT

press Cambridge (1998)

14. Van Hasselt, H., Guez, A., Silver, D.: Deep Reinforcement Learning with Double

Q-Learning. In: AAAI. vol. 16, pp. 2094–2100 (2016)

15. Wang, Z., Schaul, T., Hessel, M., Van Hasselt, H., Lanctot, M., De Freitas, N.:

Dueling network architectures for deep reinforcement learning. arXiv preprint

arXiv:1511.06581 (2015)

16. Watkins, C.J., Dayan, P.: Q-learning. Machine learning 8(3-4), 279–292 (1992)

2018 Automatic View Planning with Multi-scale Deep Reinforcement Learning Agents具有多尺度深度的自动视图规划

摘要

相关工作

方法