【翻译】Visual Place Recognition_ A Survey视觉场景识别综述【一】

**摘要:**因为现实环境的外观变化迥异,对基于视觉的场景识别是一个具有挑战性的难题。近年来,视觉场景识别系统有了很大的突破,原因主要包括视觉传感器环境感知能力的提高,对长期移动机器人自主性的日益关注,以及利用其他学科的最新研究的能力(特别是在计算机视觉中的识别和神经科学中的动物导航)。本文将提供(详实的)视觉场景识别调研大综述。。我们首先介绍场景识别的基本概念——场景识别在动物界中的作用,“地点”在机器人语境中是如何定义的,以及场景识别系统的主要组成部分。在机器人持久作业过程中,环境外观的改变是视觉场景识别失败的重要因素; 因此,我们讨论了场景识别如何处理环境外观变化问题。最后,我们进一步讨论了视觉场景识别的未来发展,特别是深度学习(deep learning),语义场景理解(semantic scene understanding)和视频流描述(video description)的相关领域中的快速发展。
**关键词:**视觉场景识别,场景识别
1 介绍
  视觉场景识别是一个定义明确,但极具挑战性的问题; 给定一张图像,人、动物或机器人能不能判断这个图像中的地方是否已经看到过?无论对于人类、动物、计算机还是机器人,一个场景识别系统必须具备一些基本的内容。首先,场景识别系统必须具有对环境的内部表示(地图),可以用来与输入的视觉数据进行比较。第二,场景识别系统必须判断当前视觉信息是否表示包含在地图中地点,如果是,是哪一个。由于一系列挑战,比如地点的外观可能会急剧变化(见图1),环境中的多个地方可能看起来非常相似,即感知偏差问题,观测时与地图存储时机器人的方位不同,这些都会造成基于视觉的场景识别执行起来比较困难。
在这里插入图片描述
图1 视觉场景识别系统必须能够(a)成功地匹配感知上差异较大的图像,还要(b)剔除不同地方的易混叠图像对之间的误匹配。
  考虑到对持久作业移动机器人自主性的日益重视,以及视觉感知能力和成本的快速提高,该研究主题在机器人学中是非常重要的。视觉是许多定位和场景识别算法的主要传感信息【1】-【19】。场景识别是一个不断扩大的研究领域,引文分析可以证明这一点,而且在机器人和计算机视觉会议上,会有专门关于场景识别的研讨会,其中包括IEEE International Conference on Robotics and Automation (2014, 2015) 和IEEE Conference on Computer Vision and Pattern Recognition (2015). 长期的场景识别问题也成了许多研讨会的常规主题,包括专门针对“长期自主性”的ICRA研讨会(2011-2014年)。
  我们写这篇综述的目的是提供一个全面的场景识别研究的现状,这也与机器人学和其他领域的研究,包括计算机视觉和神经科学相关。写这个综述的时机较好,因为相关领域的一些重大突破:比如,在计算机视觉领域内,最先进的识别系统几乎普遍使用深度学习技术,2014年诺贝尔生理学或医学奖授予了Edvard Moser,May-Britt Moser和John O’Keefe,他们发现了哺乳动物的大脑的描述方法。本文提供了场景识别问题,以及该问题与许多其他机器人研究领域的关系,包括实时定位与建图(SLAM),定位,地图构建和识别。由于研究人员越来越重视机器人在恶劣环境中的长期自主性问题,我们还特别讨论了机器人视觉场景识别的持久性问题。

2 地点在机器人学和自然界中的概念
  导航和场景识别在心理学和神经科学中就是一个经典问题。1948年Tolman在大鼠走迷宫的研究[ 20 ]中,提出了认知地图——动物逐渐学习到的不同地点之间相互关系信息,是世界信息的心理表征。对于认知地图的概念,虽然也有人批判的[ 21 ]、[ 22 ],但其影响涉及心理学和神经科学等领域,同时也包括城市规划(Lynch [ 23 ]提出认知地图的元素是路径、边缘、节点、区域和地标),和机器人学(建图方法受认知地图[ 24 ]、[ 25 ],及空间语义层次[ 26 ]的启发)领域。
在这里插入图片描述
[图2 神经实验显示,动物,例如大鼠,的大脑含有位置细胞和网格细胞。在特定环境中,位置细胞在一个位置激活,而网格细胞在多个,规则间隔的位置激活。该图显示了当动物在一个方形环境中行走的时候(a)位置细胞和(b)网格细胞的兴奋位置。(Annual Review of Neuroscience by Annual Reviews. Republished with permission of Annual Reviews, from 34|; permission conveyed through Copyright Clearance Center, Inc.).
  随着记录动物脑中神经活动技术的发展[27],O’Keefe和Dostrovsky [28]识别出大鼠海马中的位置细胞[28]。当大鼠在环境中的特定地方时,位置细胞会激活[见图 2(a)],这些位置细胞群覆盖整个区域[29],[30]。此外,如果大鼠从一个环境移动到另一个环境,相同的位置细胞可以用来表示多种不同的环境。O’Keefe和Conway [31]提出,这些位置细胞构成了Tolman认知地图的一部分。通过背部前下托的头向细胞[32]和在中间内嗅皮层中的网格细胞[33]的发现,神经活动和实际地点之间关系得到进一步了解。动物沿特定方向转动头部时,头向细胞会兴奋,而网格细胞在环境中的多个位置处兴奋,它们的兴奋区域形成规则网格 [见图2(b)]。
  通过位置细胞的兴奋位置,我们观察到场景识别被感官信号和自身运动激发[29]。对大鼠的研究显示,位置细胞最初基于自身运动而兴奋,但如果环境改变——例如,改变出发点和目的地之间的距离——位置细胞会根据看到的地标校正到正确的位置[35],[36]。根据不匹配的程度,校正可能是平滑的,也可能是突然的。
在这里插入图片描述
图3 视觉场景识别系统的框图。 输入的视觉数据由图像处理模块处理。机器人对世界的感知信息存储在地图中。置信度生成模块决定当前视觉信息是否与先前存储的地点匹配。系统中通常还包括运动信息,地图在运行过程中可以不断地更新。
  许多与上面相同的概念会出现在机器人中。大多数机器人能够获取外部观测数据,以及自身运动信息,并通过地点之间的拓扑度量关系与感官信息结合来确定最可能的位置,这类似于位置细胞的神经元兴奋。图3描述了视觉场景识别系统框图。视觉场景识别系统包含三个关键部分:图像处理模块(用于解释输入视觉数据),地图(维护机器人对世界的感知),以及置信度生成模块(通过输入的传感器数据与地图结合,来判断机器人是在一个到过的地方还是处于一个新的地点)。场景识别系统还可以将运动信息或图像处理后的信息提供给置信度生成模块。大多数场景识别系统为在线操作,并实时更新地图。
这篇文章讨论了在机器人导航中“地点”的概念。它着眼于组成地方识别系统的三个关键模块:图像处理模块,地图框架,和置信度生成模块。接着,本文讨论环境变化的问题。然后论文重新讨论每个模块——图像处理模块,地图框架,和置信度生成模块,并且研究位置识别系统的每个模块如何适应环境的外观变化的。

猜你喜欢

转载自blog.csdn.net/weixin_43457532/article/details/85062183