ICRA2021中的事件相机研究

本文首发于公众号：【事件相机】，ICRA2021中的事件相机研究

本文整理ICRA2021年中事件相机的相关研究。采用关键词搜索，可能会有遗漏，欢迎大家补充。除文献[A0]找不到原文外，对其他文章做简要介绍。

Combining Events and Frames using Recurrent Asynchronous Multimodal Networks for Monocular Depth Prediction [1]

本文提出一种RNN网络实现传统相机和事件相机的单目深度估计。传统相机低频完整、事件相机数据高频却稀疏，所以作者设计的Recurrent Asynchronous Multimodal (RAM) network兼顾了两者特性，最终功能得到了连续的、稠密的单目深度图。同时作者还公布了合成数据集EventSpace，包括图像、时间和深度真值。

在这里插入图片描述

DSEC: A Stereo Event Camera Dataset forDriving Scenarios [2]

提出了无人驾驶事件相机双目数据集DSEC。目前无人驾驶双目数据集只有MVSEC [A1]和本文提出的DSEC，但MVSEC采用DAVIS346，分辨率较低。本文的sensor为Prophesee Gen3.1（分辨率640x480），普通相机，Velodyne VLP-16激光雷达，GNSS。整个数据集包括白天夜间多段数据，总共长达1小时。

Tracking 6-DoF Object Motion from Events and Frames [3]

本文研究物体的6DoF跟踪，即利用图像和Event跟踪一个运动的物体。方法简单概括就是通过传统图像初始化，再基于事件生成概率模型(Probabilistic generative model)进行跟踪。基于的假设是刚性物体。

在这里插入图片描述

由于本人也做过跟踪的相关研究，认为此文工作还有所欠缺。首先，在实验部分，对比了只用event或只用frame的跟踪效果，发现论文提出的方法不错。但frame-based方法只是说用的image alignment，并没有说出具体的方法，所以我认为是非常基础的算法，那完全不具有对比性。其次，高速运动的一大问题是图像模糊，图像模糊时跟踪效果也必然不好，本文没有解决办法。所以我认为这篇论文可能方法确实比较有讲究，但意义确实不太大。

0-MMS: Zero-Shot Multi-Motion Segmentation with A Monocular Event Camera [4]

本文研究动场景中动态物体的分割。研究这个问题的意义是，识别出动态物体对于机器人导航、避障等非常重要。由于事件相机对动态物体敏感，甚至可以说是只能“看到”动态物体，所以用事件相机做这个任务还是比较合适的。当然相机不动去找动态物体非常简单，本文中研究的是相机自身在运动时，分割动态物体。研究的问题核心是：如何从相机运动产生的数据中，聚类出来背景与动态物体。

在这里插入图片描述

上图展示了核心过程，首先a是原始事件积累帧，b是通过最大对比度方案得到的对齐的图像，在c图展示了特征跟踪的结果（论文采用SuperPoint tracker [A2]）并进行聚类，在d中对聚类结果进行融合，最后e图得到自身运动物体。

方法思路很简单明了，是我喜欢的风格。但我认为这种方法或许存在问题：首先既然涉及到了聚类方法，那么就是初值依赖的，同时聚类类别数量也需要经验设定；其次如果场景中运动物体占据了大面积，那么就会认为此物体是背景，而把其他的归结为动态物体。

Autonomous Quadrotor Flight despite Rotor Failure with Onboard Vision Sensors: Frames vs. Events [5]

这篇文章研究的内容也很有趣，是无人机某个螺旋桨停转导致无人机高速自旋时，如何利用纯视觉的方法去控制。无人机失控控制是一个比较重要的问题，失控时自身转速可能达到20 rad/s，之前可能并不会用纯视觉方法去估计转速，那event的出现提供了一种新的思路。整个框架如下图，核心就是传统图像崩了以后采用event去提特征。

在这里插入图片描述

Hough2Map - Iterative Event-based Hough Transformfor High-Speed Railway Mapping [6]

事件相机的Hough直线检测，同时建图。事件相机跟踪直线有什么用呢？这篇文章有一个具体的应用背景：高速运动火车根据沿途的电线杆估计自身速度，同时也可以把电线杆的位置建出来。具体的方法不做介绍，本质就是根据新来的event对直线进行更新。

在这里插入图片描述
（视频发不上来，详见公众号推送）

这篇文章启发我们：事件相机能应用的场景可能很多，只不过还没被发现。

Event-driven Vision and Control for UAVs on a Neuromorphic Chip [7]

这种关键词带有 Neuromorphic Chip的，基本上的重点是在某些神经拟态芯片比如Loihi、TrueNorth、中国的天机芯片等上搭建SNN网络的实现，理论方法上一般不会太深入。本文讲的是用SNN在Loihi上做UAV的控制。不展开介绍了。

参考文献

[1] Gehrig, Daniel; Rüegg, Michelle; Gehrig,Mathias; Carrio, Javier Hidalgo; Scaramuzza, Davide: Combining Events andFrames using Recurrent Asynchronous Multimodal Networks for Monocular DepthPrediction. In IEEE Robotics and Automation Letters (RA-L). Availableonline at http://arxiv.org/pdf/2102.09320v1.
[2] Gehrig, Mathias; Aarents,Willem; Gehrig, Daniel; Scaramuzza, Davide (2021): DSEC: A Stereo Event CameraDataset for Driving Scenarios. Available online athttp://arxiv.org/pdf/2103.06011v1.
[3] Li, Haolong; Stueckler, Joerg(2021): Tracking 6-DoF Object Motion from Events and Frames. Available onlineat http://arxiv.org/pdf/2103.15568v1.
[4] Parameshwara, Chethan M.;Sanket, Nitin J.; Singh, Chahat Deep; Fermüller,Cornelia; Aloimonos, Yiannis (2020): 0-MMS: Zero-Shot Multi-Motion SegmentationWith A Monocular Event Camera. Available online at http://arxiv.org/pdf/2006.06158v2.
[5] Sun, Sihao; Cioffi, Giovanni;Visser, Coen de; Scaramuzza, Davide (2021): Autonomous Quadrotor Flight despiteRotor Failure with Onboard Vision Sensors: Frames vs. Events. In IEEE Robot.Autom. Lett. 6 (2), pp. 580–587. DOI:10.1109/LRA.2020.3048875.
[6] Tschopp, Florian; Einem,Cornelius von; Cramariuc, Andrei; Hug, David; Palmer, Andrew William; Siegwart,Roland et al. (2021): Hough2Map -- Iterative Event-based Hough Transform forHigh-Speed Railway Mapping. In IEEE Robot. Autom. Lett. 6 (2),pp. 2745–2752. DOI: 10.1109/LRA.2021.3061404.
[7] Vitale, Antonio; Renner,Alpha; Nauer, Celine; Scaramuzza, Davide; Sandamirskaya, Yulia (2021):Event-driven Vision and Control for UAVs on a Neuromorphic Chip. Availableonline at http://arxiv.org/pdf/2108.03694v2.

[A0] An Event-based Vision Dataset forVisual Navigation Tasks in Agricultural Environments
[A1] A. Z. Zhu, D. Thakur, T. Ozaslan, B.Pfrommer, V. Kumar, and K. Daniilidis, “The multivehicle stereo event cameradataset: An event camera dataset for 3D perception,” IEEE Robot. Autom. Lett.,vol. 3, pp. 2032–2039, July 2018
[A2] Daniel DeTone, Tomasz Malisiewicz, andAndrew Rabinovich. Superpoint: Self-supervised interest point detection anddescription. In CVPR Deep Learning for Visual SLAM Workshop, 2018.

公众号后台回复：ICRA2021，下载本文介绍的论文。

欢迎关注微信公众号【事件相机】，分享和交流事件相机的相关研究与应用。
在这里插入图片描述