【论文笔记】A High-Accuracy Indoor-Positioning Method with Automated RGB-D Image Database Construction

关键词:视觉定位;室内场景;自动数据库构建;图像检索

一、摘要

问题: 传统的室内视觉定位方法的工作量大,精度低,耗时

方法: 提出一种具有自动 RGB-D 图像数据库的室内定位方法。结合自动数据库构建模块,基于 CNN 的图像检索模块和基于严格几何关系的位姿估计模块。

结果: 减少工作量并确保精度,提高了检索效率,通过数据集验证了有效性和效率。

二、结论

文章缺陷:

  • 从实验结果表格可以得到,该方法的姿态估计与参考方法相比差不多,姿态估计的精度有待提高。
  • 提出的方法可能在极端环境下表现不好。

课题构思(如何一步步得到结论):

  • 构建室内定位数据库减少手动选择数据库图像的工作量,更加客观,减少了数据库冗余并提高了图像检索效率;
  • 通过结合自动数据库构建模块,基于 CNN 的图像检索模块和基于严格几何关系的姿态估计模块,获得了一种高精度的室内定位系统;
  • 通过 TUM RGB-D 数据集的六个典型室内序列验证了方法的准确性。

未解问题: 结合序列的语义信息,以减少大型室内场景中视觉定位的搜索空间。

三、粗看图表

数据来源: TUM RGB-D 数据集的六个典型室内序列

重要指标: 数据库位置,匹配点对数与位置、位姿误差的关系,数据库图像和查询图像的数量;位姿误差

四、引言

研究原因:

  1. 精确的室内定位有重要现实意义
  2. GNSS 在室内因信号遮挡和衰减无法使用
  3. 基于指纹的数据库的构建耗时,精度不足

课题阶段:

  1. 基于图像检索的方法

    • 数据库有地理空间信息。
    • 使用暴力匹配算法进行相似搜索以检索候选图像。高维特征会消耗很多计算资源。
    • 基于全局特征的系统减少搜索空间,使用 SIFT 描述子在数据库检索候选图像;
    • 使用近似最近邻搜索(如 quantization 和 vocabulary tree),以精度换速度
    • 使用 PCA 用来减小特征向量和描述子大小,节省时间空间
    • 使用相关性算法计算查询图像与数据库图像间的相似性
    • 基于深度学习的算法,使用网络中提取的特征点
    • 聚合局部深度特征产生描述子,使用加权方案线性组合计算查询图像的位姿。不满足严格几何关系,精度差
  2. 基于视觉路标的方法:

    • 提供查询图像的 6 自由度(DoF)位姿
    • 包括自然路标和人工路标。
    • 自然路标:用特征描述子或带位姿的图像表示地理标记的 3D 数据库。数据库的建立由 SLAM 的建图模块完成。通过重投影模型和特征匹配来估计位姿。精度高但特征匹配耗时
    • 人工标记:
      • 目前方案:基准标记和检测算法;可以同时从方形平面中定位
      • 需在环境中张贴标记。不适用于所有场所。
  3. 基于学习的方法:

    • 分两个步骤:模型训练和姿势预测

    • 通过已知位姿信息的图像训练模型,通过模型对查询图像的位姿进行回归。也可直接学习位姿。适用室内弱纹理场景,大型室内环境精度低、泛化能力低。

    • 可替代深度估计、回环检测、重投影

    • 目前方案:用网络进行图像识别,传统的视觉定位方式估计位姿,数据库构建耗时且对地理环境的假设过强。

主要贡献: 提出了一种具有自动 RGB-D 图像数据库构造的高精度室内视觉定位方法

  • 提出了一个自动化的数据库构建过程;

  • 引入卷积神经网络(CNN)模型,用于鲁棒和高效地检索候选图像;

  • 使用严格的几何关系计算位姿,精度高。

理论假设: 高精度室内定位

五、实验过程

模型步骤,每个步骤的结论

  • 方法

    1. RGB-D 室内定位数据库构建

      • 数据库使用 RGB-D 图像,帧率高冗余,但太稀疏精度低。

      • 构建数据库的策略基于位姿误差、匹配点数和位姿 difference 之间的关系,通过数据集确定关系;

        1. 查询图像的位姿由视觉定位过程计算。比较计算的位姿和地面实况得到位姿误差。绘制位姿误差与匹配点数的图像,得到最小匹配点数的阈值 T T

        2. 比较地面实况和数据库图像得到位姿 difference,绘制位姿 difference 与匹配点数的图像,进行拟合,并用更多的数据来验证。将 1 中求得阈值 T T 代入拟合曲线方程得到位姿 difference 的阈值 T Δ p o s i t i o n , T Δ a t t i t u d e T_{\Delta position},T_{\Delta attitude}

      • 流程图:

        在这里插入图片描述

        1. 输入已知位姿的 RGB-D 图像,用传感器获取。地面实况轨迹用带高速追踪摄像头的运动捕捉系统获取。
        2. 比较输入图像与最近加入数据库的数据库图像,计算 differences 时与数据库所有图像比较。满足阈值则加入数据库,同时加入 CNN 模型用来计算 CNN 特征向量。
        3. 数据库包含图像的三个成分:RGB-D 图像、对应位姿、CNN 特征向量
    2. 基于卷积神经网络(CNN)特征向量的图像检索

      • 采用的 CNN 结构最主要的成分是 NetVLAD 层。提取图像的深度特征。

      • 过程图

        在这里插入图片描述

        1. 在数据库构建时已经得到了数据库中的 CNN 特征向量集 F i F_i
        2. 输入查询图像时,用 CNN 模型计算其 CNN 特征向量 F q F_q
        3. 与数据库中的特征向量对比,检索出距离最小的图像。距离定义为 D i q = ( F i F q ) T ( F i F q ) D_{iq}=(F_i-F_q)^T·(F_i-F_q)
    3. 位姿估计(与《视觉 SLAM 十四讲》中做法相同)

      • 通过基于检索到的数据库图像及其位姿,估计查询图像的位姿以实现视觉定位;

      • 过程图

        在这里插入图片描述

        1. 使用 ORB 算法提取 2D 特征点并计算二进制描述子进行特征匹配,使用基础矩阵约束和 RANSAC 算法删除错误的匹配。得到像素坐标系下的匹配关系
        2. 将像素坐标系通过变换转换到世界坐标系下,其中图像深度和变换矩阵由数据库的检索图像提供。
        3. 使用 EPnP 方法估计位姿,并用 L-M 算法对位姿优化,最后保存在数据库中
  • 实验结果

    1. 测试数据和计算机配置

      构建数据库前删除缺少关联深度的图像,再手动检查与位姿误差较大的查询图像相对应的数据库图像。 若运动模糊或照明不佳则删除。

    2. RGB-D 数据库构建结果

      • 使用角点图像构建数据库,其位姿与相邻图像相差很大。
      • 从六个序列的测试图像中选择数据库图像后,其余图像用作查询图像以进行后续的视觉定位实验;
    • RGB-D 图像数据库减少选择代表性数据库图像的工作量,提供高精度的深度信息,保证高精度定位,提高图像检索效率,满足实时室内定位的要求。
  1. 定位精度的定量分析

    • 分别计算本文方法与参考方法的位置误差和姿态误差,作为 6 自由度的评估。
    • 实验得到本文方法的位姿误差大多低于参考方法,证明了高精度
    • 采用累积分布函数(CDF)直观展示位姿估计误差。
    • 通过时间分析,得到室内定位频率约为 1 Hz,满足实时性。

六、文章总结:

问题: 传统的室内视觉定位方法工作量大,精度低,耗时。

方法: 提出一种具有自动 RGB-D 图像数据库的室内定位方法。

论证过程:

  1. 开发用于自动数据库构建的策略。策略基于位姿误差、匹配点数和位姿 difference 之间的关系,设置阈值自动筛选构建数据库的图像。
  2. 使用 CNN 模型检索与输入图像相似的数据库图像,以进行位姿估计;
  3. 通过检索到的数据库图像及其位姿信息进行视觉定位。视觉定位用 ORB 算法提取特征点,基本矩阵约束和 RANSAC 算法消除错误的匹配点,检索数据库获得 3D 信息。采用 EPnP 估计初始姿态,L-M 方法优化姿态。

猜你喜欢

转载自blog.csdn.net/weixin_44413191/article/details/107723105