在一个典型的SARL（single agent RL）系统中，agent在与环境交互时学习一个策略（即行动序列），以最大化任务的累积奖励（Kaelbling et al.，1996），只定位某个器官的标准平面们。而在MARL系统中，会创建多个代理，该系统会努力最大化所有agent获得的总奖励（Foerster等人，2016；Gupta等人，2017）同时定位子宫中矢状面(S)、横面(T)和冠状面，以及胎儿经丘脑（TT）、经脑室（TV）和经小脑（TC）。

利用平面法向量（cos(ζ)、cos(β)、cos(φ)）及其与体积中心d的距离，

笛卡尔坐标系中的平面函数可以表示为： cos(ζ)x+cos(β)y+cos(φ)z+d = 0。

动作Action

将agent可以采取的操作定义为。

sp（P1、P2、P3）使用三种agent进行搜索：

P1、P2、P3的平面参数可以相应地更新，获得新的平面（如）。

状态State

状态定义为三个agent预测的最后9个平面，每个agent得到3个平面。

该设置可以在保持学习速度的同时，为agent提供丰富的状态信息（Mnih等人，2015年；Dou等人，2019年）。

奖励Reward

奖励被定义为agent是否接近或远离目标

ASRL中的r（reward）定义：

sgn（·）为符号函数。

Pt t时刻预测平面的平面参数（Pt，t时刻 plane）

Pg 目标真实平面（Pg，ground plane）

欧几里德距离

每个agent的奖励，Rk∈{−1,0，+1}，

其中+1和−1分别表示正运动和负运动，0表示没有调整。

MSRL中的r（reward）是分开算三个agent的r

回放缓存Replay Buffer

内存容器，它存储agent的转换，以执行学习过程的经验重放。

元素转换通常用一个向量表示，

给定优先级的replay buffer存储agent-环境交互中每个步骤t的状态s、动作a、奖励r和下一步s0的状态的数据序列，这可以消除数据相关性，提高采样效率。

具有高误差的第i个序列元素将优先从buffer中采样，其采样概率可以计算为，

p = 0.6控制使用多少优先级

δ = 0.05被设置为调整误差ei。

采用了重要性抽样权值来纠正优先级重放中数据分布变化引起的偏差，类似于（Schaul et al.，2015）。

损失Loss

在agent达到最终状态之前，存在着许多状态和行动的组合。

在经典的Q-learning（Danain，1992）中，我们没有将所有的state，action，（Q-values）存储在表中，

而是选择了像深度Q network（DQN）（Mnih等人，2015）这样的策略，

其中CNN被用来模拟state，action和Q-values之间的关系。

具体来说，我们采用了双DQN（DDQN）（Van Hasselt et al.，2016）方法，以减轻DQN引起的向上偏差，更好地稳定训练过程。

γ∈[0,1]是衡量未来奖励的折扣因子，

s，a是当前的状态和动作，ˆs和ˆa是下一步的状态和行动。

M是经验重放存储器，以避免频繁的数据采样。w和˜w为当前和目标网络参数。

Q network，Q(ω)用于获取当前步骤的Q-values和下一步中的动作a0。

表示用来估计下一步的Q-values的目标Q网络。

ω和˜ω是Q network和目标Q network的网络参数。

利用− greedy 算法选择action，以平衡训练过程中的探索和开发（Mnih et al.，2015）。

通常，Q-values将由全连接层输出，并指导agent的操作来更新平面参数。

为了学习平面间的潜在空间关系，我们在全连接层之后装备了一个基于RNN的agent协作模块。

因此，代理将根据RNN模块输出的校准Q-values采取行动，而不是普通的Q-values。

基于RNN的代理协作模块

子宫：

红、黄、紫、白点为两个子宫内膜子宫角，子宫内膜子宫底部和子宫壁底部

子宫SPs的空间布局子宫中矢状面(S)、横面(T)和冠状面（C）的一个典型例子

为了说明在该数据集中存在特殊或异常病例，我们还展示了宫内节育器、GS或弓形子宫的例子。值得注意的是，在这些病例中，冠状面（C）的外观可能会发生显著的变化。

胎儿脑：

解剖示意图（三个红点为胼胝体膝、胼胝体压部和小脑蚓部）

胎儿大脑中经丘脑（TT）、经心室（TV）和经小脑（TC）平面的一个典型例子。

我们展示了另一个主题的TC平面。

这证明了胎儿的大脑可以有180◦的方向差异（注意，小脑可以出现在图像的两侧）。

此外，请注意TT和TV平面在空间上很近，它们的外观可能非常相似

（例如，最右边的两个子图），并增加了更多的难度。

图1 在3D US中对目标SPs的可视化

图1显示了子宫和胎儿大脑平面之间最典型的空间关系，这些关系在一定范围内发生变化。

因此，学习这样的空间信息可以提高自动多平面定位模型的鲁棒性和准确性。

然而，以往的方法并没有考虑到这种潜在的空间信息。

广义上说，可以分为两类，每一类都有其局限性：

i)之前基于RL的平面定位方法（Alansary等人，2018；窦等人，2019）使用了single agent RL（SARL）框架，其中每个agent分别进行训练，因此平面内和平面间的信息不能得到充分利用。

ii)用于检测多个landmark的协作MARL框架（Vlontzos等人，2019年）。它可以通过在卷积层中的参数共享来学习平面的常识。然而，这并不是学习平面间空间信息的直观策略

图3 提出的RNN协作模块

基于独立预测的Q-value序列的原始平面更新过程。

是使agent共享策略的RNN单元格。

它以原始的Q-value序列作为输入，并输出校准的Q-value。

该方法利用更新后的Q-value来选择action，并更新平面参数

来确定平面的最终空间位置。

子宫US体积平面之间的空间关系

未使用基于RNN的agent协作模块（Ours ）使用基于RNN的agent协作模块（G-MARL）

（箭头表示平面真实值和预测对之间的空间差异；红色：S平面和蓝色：T平面）

如图所示。没有RNN模块，虽然C平面精准，但预测的S和T平面离目标很远（左）。

而在使用RNN模块捕获空间关系后，平面之间的空间关系可以得到很好的约束和优化，从而使所有预测的平面都非常接近其目标（右）

基于RNN的agent协作模块来明确地建模这种空间关系，以提高平面定位的精度。

不像已建立的MARL框架（Bus¸oniu等人，2010）（图3中通过完全连接的蓝色箭头），

而是建议在agent之间插入一个双向结构的RNN单元（见图2和图3）。

采用双向结构的主要原因是它可以将正向信息和后向信息相结合，从而实现多个agent之间的信息流动和策略共享。

因此，它可以增强agent之间的沟通。

agent可以在学习平面空间特征方面相互协作。

递归形式的Q-value是协作媒体，

它对state和action进行编码（即，其中ˆQ（·）表示Q网络），并明确地反映了包括平面空间位置和轨迹策略信息在内的高级知识。

这些高级决策信息将决定平面的最终空间位置（见图3），从而包含了平面之间的空间关系。

因此，agent可以通过高水平的知识共享来明确地学习平面关系，

并根据Q-value进行校准后的action。

在步骤t，Q-value序列集记为Qt =，

其中Q-value 序列，包

含8个Q值（根据动作空间）

然后将每个平面的Q-value序列传递给一个以双向结构作为每个时间步长的隐藏状态的RNN。然后RNN模块输出一个校准的q值序列集，

从而利用所有检测平面的全部知识，我们正式定义

其中，分别为正向和向后隐藏序列。

H是包含线性和不同激活操作的隐层函数，

θ表示RNN的模型参数。

agent根据进行校准动作，更新平面参数，确定平面的最终位置。

即，每个agent所采取的操作不仅是基于其自己的操作策略和空间信息，而且还基于其他agent所共享的策略和信息。

基于GDAS的搜索模块

在深度RL中，设计一个合适的agent神经网络架构对于实现良好的学习性能非常关键（Li，2017）。

与其使用相同的cnn（如VGG）来定位不同的平面（Alansary等人，2018；窦等人，2019），

为不同平面设计特定平面、任务适应和任务间平衡的神经网络架构更具灵活性，并可能有利于学习。

然而，这个过程非常耗时，扩展不方便，并且高度依赖于专家的经验。

因此，利用NAS（神经网络结构搜索Network Architecture Search）来自动设计特定平面的网络。

据我们所知，这是第一次采用NAS方法搜索RL中agent的网络架构。

GDAS来搜索每个RL代理的架构，这使每个代理能够在不需要先验知识的情况下自由地适应自己的目标。

类似地，agent协作模块中的RNN体系结构也可能影响其提取共享空间信息和行动策略的能力。

因此，我们GDAS设计一个合适的RNN模型，具有相似数量的参数，但获得了更好的性能。

RL和NAS都需要很长时间的训练时间，即使单独训练也很难训练。

因此，共同培训他们将面临着更严峻的挑战。,

于是，我们探索采用一次性和基于梯度的NAS，即GDAS（One-shot andgradient-based NAS），来同时搜索CNN和RNN，以节省训练时间和达到令人满意的性能。

不需要从头开始训练无数的候选子网络，而是只需要训练一个通过梯度下降更新的超网络。

然后，可以从超网中采样大量的子图，用于后续的性能估计。

图4 CNN和RNN 单元的细节

(a)和(b)是CNN单元的两个典型例子。

(c)和(d)分别展示了RNN单元及其可学习部分的一个典型例子。

不同颜色的箭头表示在候选操作集中定义的不同操作。

在可学习的部分中，实心箭头形成了从超级网采样的子图（用虚线箭头表示）

agent（CNN）和协作模块（RNN）的搜索过程都可以由以下元素来定义：

搜索空间、搜索策略和性能估计策略。

简单地说，搜索空间表示要搜索的整个预定义的网络结构（在本文中，即超网络）和候选操作。

搜索策略定义了如何搜索和更新网络结构。

性能估计策略，作为评估搜索体系结构性能的方法。

搜索空间

设计一个大的搜索空间，包括层数、网络分支、连接规则、候选操作、超参数等，非常耗时，并且可能获得一个过复杂的搜索空间。

为了提高设计效率和简化搜索空间，我们使用了基于单元格的结构（如VGG、ResNet等）。

它只需要定义几种类型的单元格（包括节点的数量、过滤器和通道的数量、节点之间的连接规则等），根据单元的连接规则堆叠形成最终的搜索结构。

单元格是一个卷积块，单元格中的节点表示特征映射。

构建agent（即CNN）和RNN的单元格的基本设计如图4所示，其中箭头表示不同的操作。

图4 CNN和RNN 单元的细节

CNN单元由10个候选操作组成，

包括无操作、

3×3卷积、 5x5可分离卷积、

5×5卷积、 3×3最大池、

3x3扩展卷积、 3×3平均池、

5x5扩展卷积、跳过连接、

3x3可分离卷积、 channel-wise concat融合特征

在验证阶段，从CNN单元格中每个中间节点的所有节点中选择权重前2位的操作

RNN模块只包含一个具有双向结构的单元组成。

recurrent cell包含5个候选操作，

包括无操作、身份映射、3个激活函数（tanh, relu and sigmoid）、channel-wise concat融合特征

隐藏状态ht=中间节点（n1到n3）的平均值。

与CNN细胞不同的是，在RNN细胞中，中间节点n1到n3只选择一个权值最高的操作

与DARTS（Liu et al.，2018）相似，

CNN有两种卷积单元，包括normal cell 和reduction cell。

normal cell（5个）的输入和输出具有相同的大小，

reduction cell（3个）输出具有双通道的集合特征图。

3个agent共享8个CNN单元，共享共同的低级特征，

每一agent都有4个独自单元（3个normal cell、1个reduction cell）。为自己的任务提取唯一的高级表示。

搜索策略和绩效评估策略

对于搜索策略，在DARTS中，子操作是联合优化的，

这意味着它在每次迭代中更新整个超网和所有参数。

因此，DARTS可能有两个主要的缺点：

i)节点之间的所有连接（子操作）都需要在每次迭代中进行计算和更新，从而导致大量的搜索时间和内存消耗。

ii)优化所有子操作同时导致它们之间的竞争，这可能导致训练不稳定。

例如，有时，不同的子操作可能输出相反的值，求和趋于零。

这会阻碍两个连接节点之间的信息流动，从而使学习过程不稳定。

为了加速和稳定学习过程，GDAS使用可微采样器从超网中获得子图，并且在每次迭代中只更新子图。

即GDAS在正向传递中使用argmax，因此反向传播中在softmax上使用的Gumbel-Max。

在softmax上使用的Gumbel-Max，softmax可以更好地近似实际的采样操作。

即，当training epoch增加，softmax温度参数τ下降到τ→0时，Gumbel-softmax趋于argmax。

更多细节请参考（Maddison et al.，2014；董和杨，2019）。

在搜索过程中，网络权值ω和体系结构参数α通过梯度(等式4和等式5)分别使用基于优先级权重的batch（Mp）和基于随机方式的batch（Mr）从回放缓存区采样的数据

其中，L为MSE损失函数。Q是Q网络Q（·）的直接输出，

Q∗同时基于Q网络和目标Q网络Q∗（·）计算，如下图所示：

对于性能估计策略，当将NAS应用于非rl任务时，搜索模型的选择通常取决于损失函数（Elsken et al.，2018）。

具体来说，在损失收敛后，根据其在验证集上的性能，选择其中一个搜索的架构作为最终设计的模型。

然而，RL中的损失是振荡的，难以收敛。

因此，我们为CNN和RNN选择最优的架构参数α∗CNN和α∗RNN，使用所有训练时期验证集上的最大累积奖励。

然后，使用这些工具，我们就可以为每个agent构建定制的CNN，并为协作模块构建一个理想的RNN。

评定标准

使用了三个标准来评估平面定位
空间相似性：

1.两个平面之间的二面角(Ang)

np，ng表示预测平面和目标平面的法线

2.两个平面到原点的欧氏距离差(Dis)

dp，dg表示与体积的距离原点到预测平面，原点到真实平面

（Ang和Dis是基于平面采样函数，即cos(α)x + cos(β)y + cos(γ)z = d,

有效体素大小为0.5 mm3/voxel）

内容相似性：

3.峰值结构相似度(SSIM)（Wang et al.，2004）。

并将迭代t中的ADI定义为距离起始平面的距离和角度的累积变化之和，如下

实验

NVIDIA TITAN 2080 GPU

使用Adam优化器进行训练。

在搜索网络架构的第一阶段（约3天），

将学习网络权重ω分别设置为5e-5，学习架构参数α分别设置为0.05。

在对RL系统进行SP定位训练的第二阶段（约3天），

使用5e-5的学习速率对代理和RNN模块进行了100个周期的再训练。

训练子宫和胎儿大脑数据集的批处理大小分别设置为32和24。

DDQN中的回放缓存区的大小设置为15000，目标网络每1500步复制一次当前网络的参数。

在训练期间，初始化的plane是子宫和胎儿大脑分别在±20◦/±4mm和±25◦/±5mm的角度和距离范围内随机设置在目标平面周围。

子宫和胎儿大脑每次角度（aζ、aβ、aφ）的步长均为±0.5◦和±1.0◦，

两者的距离ad步长均为±0.1mm。

在训练和测试阶段，子宫的终止步骤分别为50、30，胎儿大脑为80、60

Agent with Warm Start and Adaptive Dynamic Termination for Plane Localization in 3D Ultrasound_luemeon的博客-CSDN博客

Agent with Tangent-based Formulation and Anatomical Perception for Standard Plane Localization in 3D_luemeon的博客-CSDN博客

识别、提取三维超声中标准平面的总结+论文+代码合集_luemeon的博客-CSDN博客

论文References

Alansary, A., Le Folgoc, L., Vaillant, G., Oktay, O., Li, Y., Bai, W., Passerat-Palmbach, J., Guerrero, R., Kamnitsas, K., Hou, B., et al., 2018. Automatic view

planning with multi-scale deep reinforcement learning agents, in: International Conference on Medical Image Computing and Computer-Assisted Intervention,

Springer. pp. 277–285.

Baker, B., Gupta, O., Naik, N., Raskar, R., 2016. Designing neural network architectures using reinforcement learning. arXiv preprint arXiv:1611.02167 .

Baumgartner, C.F., Kamnitsas, K., Matthew, J., Fletcher, T.P., Smith, S., Koch, L.M., Kainz, B., Rueckert, D., 2017. Sononet: Real-time detection and localisation

of fetal standard scan planes in freehand ultrasound. IEEE Transactions on Medical Imaging 36, 2204–2215.

Baumgartner, C.F., Kamnitsas, K., Matthew, J., Smith, S., Kainz, B., Rueckert, D., 2016. Real-time standard scan plane detection and localisation in fetal ultrasound

using fully convolutional neural networks, in: International conference on medical image computing and computer-assisted intervention, Springer. pp. 203–211.

Bornstein, E., Monteagudo, A., Santos, R., Strock, I., Tsymbal, T., Lenchner, E., Timor-Tritsch, I., 2010. Basic as well as detailed neurosonograms can be performed

by o fflfflffl ine analysis of three-dimensional fetal brain volumes. Ultrasound in obstetrics & gynecology 36, 20–25.

Bus¸oniu, L., Babuska, R., De Schutter, B., 2010. Multi-agent reinforcement learning: An overview, in: Innovations in multi-agent systems and applications-1. ˇ

Springer, pp. 183–221.

Chen, H., Ni, D., Qin, J., Li, S., Yang, X., Wang, T., Heng, P.A., 2015. Standard plane localization in fetal ultrasound via domain transferred deep neural networks.

IEEE journal of biomedical and health informatics 19, 1627–1636.

Chen, H., Wu, L., Dou, Q., Qin, J., Li, S., Cheng, J.Z., Ni, D., Heng, P.A., 2017. Ultrasound standard plane detection using a composite neural network framework.

IEEE transactions on cybernetics 47, 1576–1586.

Chykeyuk, K., Yaqub, M., Noble, J.A., 2013. Class-specifific regression random forest for accurate extraction of standard planes from 3d echocardiography, in:

International MICCAI Workshop on Medical Computer Vision, Springer. pp. 53–62.

Dong, X., Yang, Y., 2019. Searching for a robust neural architecture in four gpu hours, in: Proceedings of the IEEE Conference on Computer Vision and Pattern

Recognition, pp. 1761–1770.

Dou, H., Yang, X., Qian, J., Xue, W., Qin, H., Wang, X., Yu, L., Wang, S., Xiong, Y., Heng, P.A., et al., 2019. Agent with warm start and active termination for

plane localization in 3d ultrasound, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer. pp. 290–298.

Elsken, T., Metzen, J.H., Hutter, F., 2018. Neural architecture search: A survey. arXiv preprint arXiv:1808.05377 .

Foerster, J., Assael, I.A., De Freitas, N., Whiteson, S., 2016. Learning to communicate with deep multi-agent reinforcement learning, in: Advances in neural

information processing systems, pp. 2137–2145.

Graves, A., Schmidhuber, J., 2005. Framewise phoneme classifification with bidirectional lstm and other neural network architectures. Neural networks 18, 602–610.

Gupta, J.K., Egorov, M., Kochenderfer, M., 2017. Cooperative multi-agent control using deep reinforcement learning, in: International Conference on Autonomous

Agents and Multiagent Systems, Springer. pp. 66–83.

Huang, Y., Yang, X., Li, R., Qian, J., Huang, X., Shi, W., Dou, H., Chen, C., Zhang, Y., Luo, H., et al., 2020. Searching collaborative agents for multi-plane

localization in 3d ultrasound, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer. pp. 553–562.

Kaelbling, L.P., Littman, M.L., Moore, A.W., 1996. Reinforcement learning: A survey. Journal of artifificial intelligence research 4, 237–285.

Li, Y., 2017. Deep reinforcement learning: An overview. arXiv preprint arXiv:1701.07274 .

Li, Y., Khanal, B., et al., 2018. Standard plane detection in 3d fetal ultrasound using an iterative transformation network, in: MICCAI, Springer. pp. 392–400.

Lin, Z., Li, S., Ni, D., Liao, Y., Wen, H., Du, J., Chen, S., Wang, T., Lei, B., 2019. Multi-task learning for quality assessment of fetal head ultrasound images.

Medical image analysis 58, 101548.

Liu, H., Simonyan, K., Yang, Y., 2018. Darts: Di ffff erentiable architecture search. arXiv preprint arXiv:1806.09055 .

Lorenz, C., Brosch, T., Ciofolo-Veit, C., Klinder, T., Lefevre, T., Cavallaro, A., Salim, I., Papageorghiou, A.T., Raynaud, C., Roundhill, D., et al., 2018. Automated

abdominal plane and circumference estimation in 3d us for fetal screening, in: Medical Imaging 2018: Image Processing, International Society for Optics and

Photonics. p. 105740I.

Loughna, P., Chitty, L., Evans, T., Chudleigh, T., 2009. Fetal size and dating: charts recommended for clinical obstetric practice. Ultrasound 17, 160–166.

Lu, X., Jolly, M.P., Georgescu, B., Hayes, C., Speier, P., Schmidt, M., Bi, X., Kroeker, R., Comaniciu, D., Kellman, P., et al., 2011. Automatic view planning for

cardiac mri acquisition, in: International Conference on Medical Image Computing and Computer-Assisted Intervention, Springer. pp. 479–486.

Maddison, C.J., Tarlow, D., Minka, T., 2014. A* sampling, in: Advances in Neural Information Processing Systems, pp. 3086–3094.

Mnih, V., Kavukcuoglu, K., Silver, D., Rusu, A.A., Veness, J., Bellemare, M.G., Graves, A., Riedmiller, M., Fidjeland, A.K., Ostrovski, G., et al., 2015. Human-level

control through deep reinforcement learning. Nature 518, 529–533.

Moellers, M., Gr

undahl, F., Hammer, K., Braun, J., de Murcia, K.O., K

oster, H., Steinhard, J., Klockenbusch, W., Schmitz, R., 2018. Fetal brain development in

diabetic pregnancies and normal controls. Geburtshilfe und Frauenheilkunde 78, P–310.

Ni, D., Li, T., Yang, X., Qin, J., Li, S., Chin, C.T., Ouyang, S., Wang, T., Chen, S., 2013. Selective search and sequential detection for standard plane localization in

ultrasound, in: International MICCAI Workshop on Computational and Clinical Challenges in Abdominal Imaging, Springer. pp. 203–211.

Ni, D., Yang, X., Chen, X., Chin, C.T., Chen, S., Heng, P.A., Li, S., Qin, J., Wang, T., 2014. Standard plane localization in ultrasound by radial component model

and selective search. Ultrasound in medicine & biology 40, 2728–2742.

Real, E., Aggarwal, A., Huang, Y., Le, Q.V., 2019a. Aging evolution for image classififier architecture search, in: AAAI Conference on Artifificial Intelligence.

Real, E., Aggarwal, A., Huang, Y., Le, Q.V., 2019b. Regularized evolution for image classififier architecture search, in: Proceedings of the aaai conference on artifificial

intelligence, pp. 4780–4789. 20 Xin Yang and Yuhao Huang et al. / Medical Image Analysis (2021)

Real, E., Moore, S., Selle, A., Saxena, S., Suematsu, Y.L., Tan, J., Le, Q.V., Kurakin, A., 2017. Large-scale evolution of image classififiers, in: Proceedings of the

34th International Conference on Machine Learning-Volume 70, JMLR. org. pp. 2902–2911.

Ren, P., Xiao, Y., Chang, X., Huang, P.Y., Li, Z., Chen, X., Wang, X., 2020. A comprehensive survey of neural architecture search: Challenges and solutions. arXiv

preprint arXiv:2006.02903 .

Ryou, H., Yaqub, M., Cavallaro, A., Roseman, F., Papageorghiou, A., Noble, J.A., 2016. Automated 3d ultrasound biometry planes extraction for fifirst trimester

fetal assessment, in: International Workshop on Machine Learning in Medical Imaging, Springer. pp. 196–204.

Schaul, T., Quan, J., Antonoglou, I., Silver, D., 2015. Prioritized experience replay. arXiv preprint arXiv:1511.05952 .

Schlemper, J., Oktay, O., Chen, L., Matthew, J., Knight, C., Kainz, B., Glocker, B., Rueckert, D., 2018. Attention-gated networks for improving ultrasound scan

plane detection. arXiv preprint arXiv:1804.05338 .

Schmidt-Richberg, A., Schadewaldt, N., Klinder, T., Lenga, M., Trahms, R., Canfifield, E., Roundhill, D., Lorenz, C., 2019. O ffff set regression networks for view

plane estimation in 3d fetal ultrasound, in: Medical Imaging 2019: Image Processing, International Society for Optics and Photonics. p. 109493K.

Van Hasselt, H., Guez, A., Silver, D., 2016. Deep reinforcement learning with double q-learning, in: Thirtieth AAAI conference on artifificial intelligence.

Vlontzos, A., Alansary, A., Kamnitsas, K., Rueckert, D., Kainz, B., 2019. Multiple landmark detection using multi-agent reinforcement learning, in: International

Conference on Medical Image Computing and Computer-Assisted Intervention, Springer. pp. 262–270.

Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.P., 2004. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image

processing 13, 600–612.

Watkins, C.J., Dayan, P., 1992. Q-learning. Machine learning 8, 279–292.

Wistuba, M., Rawat, A., Pedapati, T., 2019. A survey on neural architecture search. arXiv preprint arXiv:1905.01392 .

Wong, L., White, N., Ramkrishna, J., J

unior, E.A., Meagher, S., Costa, F.D.S., 2015. Three-dimensional imaging of the uterus: the value of the coronal plane. World

journal of radiology 7, 484.

Xie, L., Yuille, A., 2017. Genetic cnn, in: Proceedings of the IEEE international conference on computer vision, pp. 1379–1388.

Yang, X., Ni, D., Qin, J., Li, S., Wang, T., Chen, S., Heng, P.A., 2014. Standard plane localization in ultrasound by radial component, in: 2014 IEEE 11th

International Symposium on Biomedical Imaging (ISBI), IEEE. pp. 1180–1183.

Zhang, L., Chen, S., Chin, C.T., Wang, T., Li, S., 2012. Intelligent scanning: Automated standard plane selection and biometric measurement of early gestational

sac in routine ultrasound examination. Medical physics 39, 5015–5027.

Zoph, B., Le, Q.V., 2016. Neural architecture search with reinforcement learning. arXiv preprint arXiv:1611.01578 .

Zoph, B., Vasudevan, V., Shlens, J., Le, Q.V., 2018. Learning transferable architectures for scalable image recognition, in: Proceedings of the IEEE conference on

computer vision and pattern recognition, pp. 8697–8710.

Searching Collaborative Agents for Multi-plane Localization in 3D Ultrasound多智能体强化学习（MARL）定位超声多个标准切面

摘要

方法

用于多平面本地化的MARL框架