[MICCAI 2019 | CVPR 2020] 图数据，点云相关文章总结综述，一篇即可看完文章模型结构和创新

[1] Integrating 3D Geometry of Organ for Improving Medical Image Segmentation，MICCAI2019，Part5

器官形状和位置的先验知识在医学影像分割中起着重要作用。但是，传统的2D / 3D分割方法通常以像素/体素分类器的方式工作，其训练目标无法明确地合并3D形状知识。本文中提出了一种深度形状感知网络来学习器官的3D几何形状。更具体地说，该网络在基于图形的CNN中使用3D网格表示，可以有效处理形状推断和精度传播。将形状感知模块集成到主干FCN中，并在多任务框架中共同训练完整模型后。中间特征表示的判别能力在几何关系和分割正则化方面都得到了增强。网络不仅可以输出准确的分割结果，而且还可以同时生成平滑的3D网格，可用于进一步的3D形状分析。

[2] An Efficient PointLSTM for Point Clouds Based Gesture Recognition, CVPR2020

点云包含丰富的空间信息，为手势识别提供了补充线索。本文将手势识别公式化为不规则的序列识别问题，旨在捕获点云序列之间的长期空间相关性。因而提出了PointLSTM框架，以在保持空间结构的同时传播过去到未来的信息。PointLSTM将过去相邻点的状态信息与当前功能相结合，以通过权重共享的LSTM层更新当前状态。

本文认为，与RGB数据相比，点云精确地描述了对象表面的潜在几何结构和距离信息。递归神经网络（RNN）和长短期记忆（LSTM）在序列建模方面是可以借鉴的。借助LSTM，可以捕获时空对应随时间变化的运动和外观变化。但是大多数点云数据都是无序的，直接在未对齐的点云序列上应用权重共享的LSTM层会导致优化困难。因此，如何在保持空间结构的同时利用时间信息是不规则序列建模的主要挑战。

本文因此提出了PointLSTM，框架如下。

LSTM与注意力机制天然就有一定的关系，这篇文章的解决的问题是在长时间序列的数据处理问题。

[3] PatchVAE: Learning Local Latent Codes for Recognition，CPVR2020

本文认为，要训练一个新结构，则必须为该概念收集数千个带有标签的示例，并训练功能强大的分类器，因为当前基于深度神经网络的模型生成需要大量的标记数据。但是，受监督的学习范式不适用于诸如医疗保健和机器人技术之类的应用程序，这些应用程序由于隐私问题或专家人工注释的高昂成本而难以获取注释数据。在这种情况下，无监督学习十分适用。

本文因此提出了一种新颖的无监督VAE模型，该表示形式仅对图像中在整个数据集中重复的部分进行编码，即图像中经常出现的部分。通过避免整个图像的重建，模型专注于在许多图像上重复且一致的区域。在基于编码器-解码器的生成模型中，本文限制编码器体系结构以学习此类重复部分-既包括这些部分（或图像中的小块）的外观表示形式，也包括这些部分的出现位置。本文认为这种PatchVAE模型比标准β-VAEs的学习的识别性要好得多。

本周推到了其数学结构

回顾beta-VAE的损失函数

给定图像x，令f =φ（x）是确定性映射，该映射生成大小为h×w×de的3D张量f，总共有L = h×w个网格单元。为了让编码器网络仅对与高度重复的色块相对应的图像部分进行编码（例如，随机出现的噪声patch不太可能经常出现，而诸如脸，轮子，窗户等图案会在多个图像上重复出现），将f对应预测图像中频繁出现的部分，并仅使用这些预测的部分来重构图像。

在encoder中，给定图像的映射f =φ（x），学习每个网格位置l（其中l∈{1，...，L}）的部分表示。即图中出现的zapp和zlocc（对应这部分在网格位置l处的存在或不存在）参数化。使用两个网络QAf和QOf分别参数化zapp和zlocc的后验分布QAf（zapp | f）和QOf（zlocc | f）。

由于映射f =φ（x）是确定性的，因此可以将这些分布重写为QAf（zapp |φ（x））和QOf（zlocc |φ（x））来进行解码。利用给定zocc和zapp的生成器或解码器网络G重建图像。首先，对zapp进行采样，然后对后代中每个位置l的部分出现zbinarylocc进行采样

然后仅在zlocc = 1的地方使用zapp组成最后的向量z，输入decoder开始训练。即

最后patchVAE的损失函数为

本文声称自己的模型可以摒弃数据集中不重要的部分，仅针对持续出现的部分进行编码和解码，并称此模型的识别度相比于一般模型要好。我认为，如果能讲通—我们的生成模型也需要排除数据集中的噪声，并且声称人眼/机器识别度更好的点云数据，那就能讲得通将这个模型用在我们的模型上的动机。

本周推到了其数学结构

回顾beta-VAE的损失函数

然后仅在zlocc = 1的地方使用zapp组成最后的向量z，输入decoder开始训练。即

最后patchVAE的损失函数为

[4] Hierarchical Graph Attention Network for Visual Relationship Detection, CVPR2020

文章认为，视觉关系检测（VRD）通过<subject-predicate-object>的结构三元组来描述两个对象之间的关系。现有的基于图的方法主要通过对象级图来表示关系，而对象级图则忽略了对三重态级依赖关系的建模，所以提出了一种分层图形注意网络（HGAT），以捕获对象和三元组级的依赖关系。对象级图旨在捕获对象之间的交互，而三元组图则建模关系之间的依赖关系。另外，引入了先验知识和注意力机制来将冗余或丢失的边缘固定在根据空间相关性构造的图上。

本文的图注意力网络主要用于目标检测（广义上的分类任务）。

[5] From Image Collections to Point Clouds with Self-supervised Shape and Pose Networks, CVPR2020

本文专注于从2D图像生成3D点云。与使用3D监督或多视图监督的其他模型不同的是，本文在训练期间也仅使用单视图图像。这使得该模型只需要收集对象类别和相应轮廓的图像即可。本文利用可微分的点云渲染器以2D监督进行训练，以自监督的方式学习3D点云重构和估计网络。提出的技术的关键处在于，通过将随机采样的3D几何预测加入点云中实现循环一致性。

可以看出，本文的2D图像并非常规2D自然图像，而是专门的轮廓图。

本文的模型借鉴了cycle-GAN的思想来进行单边域转换，但是总体结构是数个VAE模型的组合。

本文是大框架上的借鉴。可以考虑将常规的VAE-GAN改进为上图的cycle-GAN来优化模型生成。

[4] C-Flow: Conditional Generative Flow Models for Images and 3D Point Clouds, CVPR2020

本文提出了一个基于flow的生成模型，并认为虽然这样的模型在精确的对数似然评估和精确的潜在变量推断中具有优势，但是它们仍处于起步阶段，没有像其他生成模型那样受到广泛关注。本文中的C-Flow是一种可将规范化flow引进行多模式数据建模的模型。 C-Flow基于可逆映射的并行序列，其中源flow在各个步骤引导目标flow，从而对生成过程进行控制。

文章认为基于flow的生成模式相对于VAE和GAN，在精细度上更有优势。下面是生成图

猜你喜欢

目录

热门文章