Overview Advances in technology CCF virtual reality and visualization techniques for the special committee Shu augmented reality visual computing

https://mp.weixin.qq.com/s/I-rNwgXHEtwgdpkWzKtVXw

Summary

A new generation of augmented reality technology need to rely on visual computing theory and methods to solve large-scale complex scene in environmental modeling, content generation, perceived interactivity three key scientific issues. From the above three aspects, the main research progress for augmented reality visual computing technology. Wherein the scene model relates positioning complex scene, reconstruction and modeling, including simultaneous localization and mapping, the exact geometry and material reconstruction and digitized, high quality real-time reconstruction of the scene dynamic environment; content generating relates driven high visual consistency fidelity integration of the actual situation, including the rendering of the scene parameter estimation, embedded virtual objects, the gaze point rendering; perceived interactivity mainly related to multi-channel intelligent collaborative interaction, including interaction based on eye-tracking technology, the content of the actual situation consistency interactive virtual and real space shared collaborative interaction Wait. Finally, this paper analyzes the current research progress and give future direction for further research.

 

Keywords: augmented reality, visual computing, scenario modeling, content generation, perceived interactivity

 

1 Introduction

 

Augmented reality is a key area of ​​research a new generation of information technology. Virtual reality and augmented reality refers to the use near-eye display, perceived interactivity, the rendering processing, network transmission and other next-generation information and communication technology, to build immersive and immersive experience of the actual situation integration of technology and services. Since the 21st century, many countries in a virtual reality and augmented reality as the core began a new round of industry competition, the United States, Japan and the European Union have launched a virtual reality and augmented reality for national research programs, virtual reality and augmented reality Research rose to the national strategic level. China has also actively promote the development of virtual reality and augmented reality layout, "" Thirteen Five "national information planning" Outline clearly states that virtual reality and augmented reality should strengthen the forefront of innovation in the field of strategic layout. By 2016, the country's highest leaders at the G20 summit opening ceremony highlighted the virtual (enhanced) real importance to the development of innovation-based economy. 2018, sent a congratulatory message to the top leaders was held in Nanchang, Jiangxi world of virtual reality industry conference, pointed out that virtual reality and augmented reality technology gradually matured, expanding the capacity of human perception, changing the form of products and service model, our country would like in the new a change in the industry to develop virtual reality and augmented reality technology, strive to create a society more human intelligence, better future.

 

Augmented reality technology is advancing science and technology industry development trend of China's future, but still related to the core technology breakthroughs. Ministry in the "Industry and Information Technology on accelerating the guidance of virtual reality industry development 'December 2018 release stated: virtual reality and augmented reality technology converged applications multimedia, sensors, new display, the Internet and artificial intelligence, and more the field of technology, to the areas of economy, science and technology, culture, military and life have a profound impact. China is facing a rare opportunity to synchronize participate in international technology industry innovation, but there are key technologies and high-end products in short supply, innovation support system is not perfect and other issues, to promote virtual reality and augmented basic theory reality, generic technology research and application technology is our virtual reality and augmented reality key tasks for the development of the industry.

 

Visual Computing is an important carrier enhanced reality technology and ways. Visual computing is visual media as a processing target, emphasizing the geometry of applications and computing models meet the visual cognition, covering computer graphics, computer vision and machine learning interdisciplinary content. Augmented reality will require real scene virtual content and information integration presents high fidelity and effectively conveyed to people visual system. A direct impact on the level of visual computing research of augmented reality implementation of the results, even success. Therefore, visual computing is one of the core augmented reality.

 

A new generation of augmented reality technology need to rely on visual computing theory and methods to solve the accurate modeling scene at the large-scale complex environments, seamless integration of the content of the actual situation, the actual situation on Space Cooperation perception and interaction of three key scientific issues. In augmented reality application, because most of the users perspective showing the real scene, how to accurately model complex real scene, the virtual objects superimposed onto real credible scenarios and cooperative awareness and interaction become the primary task of augmented reality. However, there is a core technology of augmented reality there are still difficult issues, such as how to deal efficiently with high precision complex dynamic scenes, how to deal with image blur caused by fast-moving, how to estimate the complex indoor lighting and photo-realistic rendering of virtual content, how to combine eye-tracking and gesture interactions. The difficulty of solving a very important theoretical significance and application value, can speed up the practical use of augmented reality technology, improve the competitiveness of our country in the global information field.

 

2. Progress in studies related to the modeling scene

 

For augmented reality scene mainly involves modeling complex scenes positioning, reconstruction and modeling, including simultaneous localization and mapping, the exact scene geometry and material reconstruction and digitization, high-quality real-time dynamic environment reconstruction.

 

2.1 Simultaneous localization and mapping (SLAM)

 

同时定位与地图构建(Simultaneous localization and mapping,简称SLAM)技术是场景重建的一个重要基础。目前,SLAM技术仍主要依赖于基于几何理论的方法。其中,基于特征的视觉SLAM方法主要通过对图像进行特征点检测,并借助2D或3D的特征点匹配,利用多视图几何原理来计算相机位姿以及构建环境地图[6-14]。目前,主流的特征SLAM主要使用基于关键帧集束调整的方法[15-19]。其中,最具代表性的工作是Klein和Murray 等人提出的PTAM[16],该系统首次将定位和地图构建分为两个独立的任务,并在两个线程上运行。视觉惯性SLAM方法在视觉SLAM方法的基础上结合了IMU惯导信息。IMU信息可以很好地弥补基于视觉技术的SLAM方法的不足。早期的视觉惯性SLAM基于卡尔曼滤波,一个常见的方式为设置一个滑动窗口,窗口中包含邻近若干帧的运动参数,每次只优化窗口内的运动参数和相应的三维结构。移出窗口的变量采用消元法,得到关于剩余窗口内变量的先验约束,加入后续的优化中。比较有代表性的基于滤波器的SLAM如文献[20]提出的MSCKF。近年来,有很多研究工作试图提高基于滤波器的精度。文献[21]提出一种增量优化器iSAM2,每次只优化当前帧影响到的局部变量,可以极大地减少计算量。文献[22]提出在滑动窗口同时保留邻近的关键帧和非关键帧,移出滑动窗口的信息根据对当前帧的影响选择消元或直接丢弃。浙江大学章国锋等人提出了一个非常高效的增量式集束调整算法[23],不但比iSAM2等方法快一个数量级,而且通过结合相对边缘化很好地解决了视觉惯性SLAM中回路闭合的全局一致性问题。北京大学査红彬团队提出了在人造环境中的结构感知SLAM方法,除考虑点云结构信息作为约束外,使用平面和直线作为额外的约束对长距离跟踪进行补充[24]。

 

传统SLAM方法虽然在较理想的场景下取得了不错的精度,然而在处理动态场景、相机快速运动、和相机纯旋转等方面仍存在难点。随着深度学习的快速发展,SLAM开始结合机器学习方法,以求得到进一步突破。2015年Kendall提出的PoseNet[1]首次利用卷积神经网络(Convolution Neural Networks,CNN)对相机6维姿态进行端到端估计。随后,相关的工作[2-5]如雨后春笋般层出不穷,并且在系统鲁棒性方面有所突破。然而目前尚没有纯粹使用深度学习搭建的SLAM系统,多数现有的工作使用深度学习方法作为传统SLAM的一个模块,以改进传统SLAM的一些缺点。例如,CNN-SLAM[5]加入基于CNN的单目深度恢复方法得到的场景深度,并与传统的立体匹配方法(Stereo Matching)相融合,一定程度上解决了传统单目SLAM尺度歧义性的问题,增强了追踪的鲁棒性,也是第一个将深度学习方法应用于SLAM系统的尝试。除此之外,文献[2-4]尝试单纯使用深度学习方法对两帧之间相机的姿态变化进行估计。方法[2, 3]的实现思想基本一致,均可无监督训练网络,实现视觉里程计的功能,即输入前后帧RGB图像,输出相机相对位姿变化。而方法[4]则设计一个迭代优化的网络结构,通过网络内部多次迭代,实现了预测结果的逐步优化,相比之前方法,性能显著提升。

 

基于RGB-D数据的SLAM方法借助额外硬件设备采集得到深度,结合RGB图像对相机进行位姿估计,并对场景进行地图构建。RGB-D跟踪可以大致分为基于直接对齐的方法和基于特征的方法。就基于直接对齐的方法而言,文献[25-29]采用了帧到模型直接对齐的方法,即直接对当前帧点云与模型点云进行匹配,并求解最优的相对变换以最小化匹配误差。文献[27, 28]在匹配几何结构的基础上,同时也优化模型和当前帧的光度匹配,改善了文献[26]方法在弱纹理区域的歧义性;文献[30, 31]则采用帧到帧的直接对齐方法,即使用关键帧进行模型管理,并直接求解当前帧与邻近关键帧之间的相对变换,使得当前帧与关键帧之间的匹配误差最小化。深圳大学黄惠团队[29]提出利用物体语义信息约束提升相机位姿估计的鲁棒性。针对室内场景扫描过程中路径规划困难的问题,国防科技大学徐凯团队提出在初始RGB-D重建结果的基础上,通过分析场景内的物体信息,引导机器人对扫描不完全区域进行自动探索[32];北京大学陈宝权团队提出通过在线预测下一最佳视角(NBV),显著提升了物体扫描和重建的精度[33];文献[34]则利用当前重建结果实时更新计算场景张量场,进而基于该张量场引导机器人在场景中的移动。在此基础上,中国科学技术大学刘利刚团队提出利用物体级的引导,将全局与局部扫描路径规划整合在同一框架内[35]。北京师范大学周明全团队将场景建模技术应用于文化遗产的数字化保护——“虚拟修复”。总体来说,SLAM技术在过去的十多年里取得了长足的进步,目前已经成功应用到移动设备和VR/AR头盔上,但在大尺度室内复杂场景下仍存在稳定性和精度不高的问题,还需进一步的研究。

 

2.2 场景几何与材质精确重建与数字化

 

在实际应用中,用户在对场景或者物体进行数字化重建时,往往希望能够同时得到几何形状与材质信息,这样所重建出的三维内容的真实感将大大增加,同时也能更加容易地将数字化的结果应用于后续生产处理步骤,增强重建模型的实用性。但传统的三维重建算法及系统往往仅关注于恢复物体的几何信息,从而忽略了对应的材质信息。文献[36]提出利用空间宽谱全向反射计直接捕捉目标表面的双向反射分布函数(BRDF);在此基础上,后续研究者则开发专用系统捕捉具有空间分布的双向反射分布函数(SVBRDF,文献[37-43])及物体表面的双向纹理函数(BTF,文献[44])。该类直接获取的方法要求对光线入射角度空间、观测角度空间及目标表面空间进行密集采样,因此需要专用的采集设备和环境,采集操作所需时间长,同时由于捕获到的数据维度很高,因此给数据存储和处理带来很大困难。针对上述局限性,文献[45,46]利用从少数稀疏观测角度捕获到的材质表面反射属性在物体表面每一点处拟合参数化的双向反射分布函数,但受限于参数化模型的表达能力,该类方法难以捕捉真实材料的细节角度特性。相对应的,文献[47,48]基于物体表面材质特性的空间冗余性对空间临近或反射属性相似的数据点进行归并及降维。随着深度学习理论和方法的发展,近年来,研究者们也将深度神经网络技术应用到了材质捕捉和建模领域。文献[49]利用自编码器网络,学习出可用于材质捕获的稀疏主动光照模式,进而利用该模式对表面材质特性进行高效捕捉;微软亚洲研究院网络图形团队提出了基于深度风格迁移和纹理合成方法,可用于估计表面反射特性[50]。针对真实材质属性标注数据难以收集的局限,文献[51,52]采用自增强训练技术获取深度卷积神经网络的参数;文献[53]利用深度神经网络对材质属性的各组分类型分别进行建模,实现了实时的材质属性估计和分解,但各组分类型局限于均一材质。尽管前述各类方法目前已能完成对表面材质的高质量建模和数字化,但其重要的局限性在于,前述方法均要求待采集的表面为平面,或几何形状已知。

 

近年来,研究者们提出了一些能够降低成本的解决方案:文献[54]利用结构光设备扫描获取目标物体的几何形状;文献[55]提出一种使用普通数码相机进行多角度闪光摄影采集到的图像进行几何-材质同步重建的算法;文献[56]通过构建大型SVBRDF数据集,并设计级联式的深度神经网络结构,实现了端到端的物体几何和材质的同步估计;文献[57]则结合已有的模板几何形状,通过变形近似目标物体,进而对材质属性进行建模。深圳大学黄惠团队则利用生成对抗学习技术将场景内的高光材质迁移为漫反射材质,从而扩展了多视角场景重建技术的适用范围[58]。伴随着消费级彩色-深度(RGB-D)相机技术的不断成熟,许多研究工作考虑利用RGB-D数据对三维场景的几何形状和材质属性进行同步数字化。文献[59]提出在进行RGB-D扫描时同步估计物体形状、表面反射率和场景光照的方法。尽管现有方法已能完成对场景材质的建模及数字化,但局限于在于:现有方法或需要配置复杂专用的采集设备和环境,或要求待采集物体的几何形状已知,或只能建模简化后的均一材质。

 

2.3 实时高质量动态环境重建

 

除静态部分之外,场景中往往也会包含动态物体,如运动的人体等。重建高质量动态场景比静态场景更加困难,因为表示场景的非刚性变形所需的参数量更大,且与之相对应的高维非凸优化问题更加难以求解;动态物体在非刚性变形过程中更容易产生自遮挡现象;同时,快速运动会导致更大的帧间差异,增大了帧间对应的求解难度。研究者们首先将静态三维重建技术拓展到了准刚性物体的数字化。文献[60,61]提出在扫描重建静态场景时允许细微的非刚性变形,从而可以消除数据噪声及畸变所带来的重建误差。文献[62]设计了一种扫描设备,通过固定或手持物体移动,实现刚性物体的重建,并在求解运动路径闭环时引入了非刚性配准方法。文献[63]利用预制的脸部扫描模板,实现了面部表情的实时高质量重建。

 

针对一般的可变形物体,文献[64]提出基于非刚性迭代最近点(ICP)算法对变形模板向输入数据进行配准,通过解耦几何形状和非刚性形变的建模及优化过程,实现了对包含复杂形变的动态物体的三维重建。在此基础上,文献[65]引入关键帧和鲁棒优化方法以提升帧间配准和跟踪的鲁棒性。但上述方法均无法达到实时的重建效率。文献[66]通过层次化、数据并行的GPU优化方案,实现了首个能够对一般可形变物体进行实时非刚性跟踪的算法。文献[67]则提出一种从四维点云数据重建植物生长动态过程的方法。

 

在没有预制模板的情况下,由于物体形状和运动均可以解释输入数据中的变化,因此对二者进行分解的过程存在固有的歧义性。文献[68,69]将动态三维重建形式化为四维时-空(space-time)优化问题,但只能处理较小尺度的几何形变和帧间运动,同时计算效率较低。文献[70]提出了首个能够在无模板条件下对一般非刚性场景进行实时三维动态重建的方法。该方法实现了利用单个消费级深度相机(如Kinect等)同时重建物体的几何形状和运动情况;该方法利用体算法(截断符号距离场,TSDF)对场景进行表示,并对每一帧均利用非刚性ICP算法计算输入深度与代表当前场景几何形状的规范化TSDF之间的变形场。文献[71]使用矢量场直接估计输入和当前模型TSDF之间的非刚性变换,免去了额外的表面提取步骤,从而对快速运动和拓扑变化更加鲁棒。文献[72,73]通过搭建复杂的多相机采集系统,实现了时域连续的实时动态场景三维重建;同时,该方法还提出一种动态且局部的关键帧更新策略,提升了对表面拓扑变化和跟踪的鲁棒性。在此基础上,文献[74]利用基于谱嵌入的几何特征,逐帧建立输入数据与当前重建结果之间的几何对应,对快速运动更加稳定;同时通过引入逐帧细节层以恢复场景中的精细几何细节。文献[75]通过构建复杂的高帧率light stage系统,基于多视角光度立体技术对动态人物场景进行重建。

 

针对动静混合的场景,在给定预扫描静态场景的条件下,文献[76]能够对场景中的运动物体进行重建。文献[77]则基于场景的面元表示,实现了静态场景中运动物体的自动在线分割,从而提升了相机位姿估计的鲁棒性。文献[78]提出利用运动或语义信息分割场景中的背景和各个前景物体,并分别对各部分进行跟踪和重建。文献[79]提出Sigmoid-ICP方法,能够解耦相机运动和场景形变,从而可以对场景中的静态和动态部分分别使用不同的方式进行重建。现有动态三维环境重建方法的局限性主要在于对预制模板或特定类型物体先验假设的依赖;对于无预制模板的一般性场景,现有方法则需要利用复杂昂贵的采集捕捉设备,且重建模型的质量较低。

 

3.内容生成的相关国内外研究进展

 

面向增强现实的内容生成主要涉及视觉一致性驱动的高逼真度虚实融合,包括场景渲染参数估计、虚拟物体嵌入、凝视点渲染等。

 

3.1 场景渲染参数估计

 

自然场景的准确光照估计是高逼真度渲染的基础。光照估计的方法大致可以分为四种:基于测量的方法、基于机器学习的室外光照估计、逆向光照方法、基于图片补全的方法。

 

基于测量的方法以Debevec[80]等人的工作为代表,提出在嵌入位置处摆放镜面反射球(也称为探头)并拍摄高动态范围照片以得到入射光强度。后续研究人员将探头位置从单点扩展到一维路径[81]、二维平面[82]甚至三维空间[83]。而对于室外场景,通常的方法是将光照表示为环境光和方向光的组合,其中方向光模拟阳光直射,而环境光模拟漫反射。

 

基于机器学习的室外光照估计方法以Lalonde等人[84]的工作为代表,该方法利用图片中的信息来估计太阳的位置。文献[85]在上述方法的基础上提出地面阴影的估计方法从而可以计算其他物体在虚拟物体上的阴影;该方法使用球面谐波函数建模太阳光和天空光照,并将其形式化成线性最小二乘问题求解。近年来深度学习的快速发展也推进了光照估计问题的研究。文献[109]利用深度神经网络预测常规低动态范围室外图像的高动态范围环境贴图,并为嵌入的虚拟物体进行高真实感光照渲染。该方法利用现有的低动态范围全景图像数据集,并使用基于物理模型的天空参数化公式计算得到的光照信息作为训练数据,来训练卷积神经网络。文献[110]进一步提出多阶段编码器-解码器网络架构,并通过渲染的方式利用三维模型库批量合成高动态范围图像作为训练数据,可为多种天气状态下的单张室外输入图像重建高质量环境贴图。对于室内场景,Garon等人[111]提出一种光照估计方法,输入一张室内图像以及指定的二维空间位置坐标,该方法利用深度神经网络实时恢复五阶球面谐波函数。

 

逆向光照方法则是在已知几何的情况下,通过图像来估计三维空间光照的方法。LeGendre等人[86]通过设计一种硬件装置,将移动拍摄设备(如手机)与三种不同材质的反光球固定在支架上,用于拍摄大量的室内外场景与相应的反光球配对的图像,并使用拍摄得到的图像集训练光照估计深度神经网络。

 

基于图像补全的方法则利用人类视觉系统不擅长辨别光照条件给图片带来的差别的特点,即使在渲染时采用虚假的、错误的光照,也可以得到合理的结果。

 

3.2 虚拟物体真实感渲染

 

虚拟物体的嵌入是增强现实的重要应用,该问题长期以来被广泛研究。虚拟物体嵌入方法往往与光照估计的方法相关。文献[87]利用镜面反射球采集高动态范围的光照,然后采用差分的方式将阴影和反射等叠加到原图中。Karsh等人[88]提出的方法通过用户对虚拟物体的几何以及面光源进行标注从而完成虚拟物体的渲染;其后续工作被扩展为基于数据驱动方法自动推断物体深度(几何信息)以及场景光照,其中物体深度信息通过现有图像库的RGBD数据进行迁移得到,而光照信息通过预训练检测器来自动查找图像中光源位置来获得。文献[89]使用三维模型库辅助图像中物体的建模,并利用von Mises-Fisher函数对光照进行建模,用户可以对图像中的物体进行多种三维空间的操作,包括缩放、平移、旋转以及复制、非刚体变形等。清华大学徐昆等人提出面向静态视频场景的虚拟物体嵌入。以上工作针对图片和用户标注或静态视频内容作虚拟物体嵌入,对于输入的约束条件较高。

 

3.3 凝视点渲染

 

面向虚拟现实/增强现实的凝视点渲染是虚拟现实增强现实中实时交互应用的重要研究方向,主要目标是提高绘制速度,无延迟地进行高质量的单目显示或头盔双目显示。凝视点渲染的基本思想是在凝视点区域渲染高质量图像,在外围区域渲染低质量图像,以节省时间成本。早期的凝视点渲染技术大致分为两类:基于凝视点位置的渲染方法和基于凝视点位置的景深渲染方法。Marc Levoy等人在1990年首次提出体素数据的凝视点渲染方法[112]。Toshikazu Ohshima等人使用凝视点定向自适应渲染方法为三角形表示的虚拟场景进行渲染[113]。David Luebke等人提出了一种基于局部简化操作的无感几何简化方法,用来生成几何场景的不同层次细节模型[114]。Hunter Murphy等人提出一种基于非同位素模型的方法用于生成和评估渲染效果等级[115]。[116-118]对早期的凝视点渲染方法和研究状况进行了详细的分析和总结。基于凝视点信息的景深渲染方法通常使用MipMap、多纹理以及片段编程等技术提升渲染性能。Sébastien Hillaire等人基于检测到的凝视点,提出一种景深模糊的渲染方法[119]。在此方法基础之上,Radosaw Mantiuk等人在渲染中使用混淆圆(CoC)作为模糊因子来控制不同深度的几何图形的模糊度[120]。Michael Mauderer等人设计了一个用户研究来评估用户对于通过凝视点景深渲染来感知深度的有效度[121]。Andrew T Duchowski等人提出一种视景深(DOF)测试方式,以减少观看立体显示器时的视觉不适[122]。Margarita Vinnikov等人从深度感知、图像质量和视觉舒适性等方面比较了立体显示器上的DOF与非立体3D上的DOF的效果[123]。

 

近年来,在虚拟现实/增强现实相关技术发展的驱动下,研究者对凝视点绘制方法展开了进一步的研究。在绘制效率提升方法,主要有以下几种思路:空间多分辨率、色彩多分辨率、时间多分辨率和光照多分辨率凝视点绘制。

 

目前大多数研究工作集中在空间多分辨率凝视点绘制方面。Anjul Patney等人提出了一种图像细节恢复和多分辨率的对比度增强方法,并提出了一种基于平扫的时间抗锯齿算法来解决边缘区域的混叠问题[124]。Michael Stengel等人提出了自适应图像空间采样方法,认为除锐度外,认知模型中的视觉线索,例如眼球运动、纹理对比度、轮廓和高光等因素都能够生成稀疏着色的采样模式[125]。Yong He等人介绍了一种通用的渲染流水线,对一幅输出图像中的多速率像素进行自适应着色处理,可以更有效地进行前向投影的预处理[126]。Nicholas T Swafford等人设计了一个用户研究,使用基于HDR-VDP2的度量方法来评估使用四种技术实现的凝视点渲染方法,包括基于分辨率的质量退化、屏幕空间环境光遮挡(SSAO)、网格镶嵌和基于视觉偏心率的光线投射等步骤[127]。Radosaw Mantiuk等人提出了一种基于凝视点的采样技术,以控制输出图像不同区域追踪的光线数量[128]。

 

为了进一步加速凝视点三维渲染,Erik N Molenaar引入预先计算的泊松圆盘采样集合来指导光线跟踪器对光线的投射,并提出了一种散乱插值方法来填充稀疏着色像素间的空白[129]。Xiaoxu Meng等人针对三维图形,设计了一种核对数极坐标映射算法,该算法为凝视点三维渲染提供了一个可以平衡视觉质量和时间开销的可控框架[130]。除了空间多分辨率概念外,研究者还使用了时间、颜色和光照多分辨率的概念来加速凝视点三维渲染。Andrew T Duchowski等人分析了凝视点和边缘区的颜色视觉特征,提出了一个多层次颜色细节框架,构建了凝视点相关区域的颜色退化映射[131]。Hector Yee等人提出了一种ALEPH图,它代表了动态场景的时空误差容忍度,此方法也能够适应凝视点三维渲染[132]。目前基于时间相关性的加速绘制等提高绘制质量的方法也可以应用于基于凝视点的三维渲染中。例如在基于虚拟点光源(VPL)的绘制方法中,Ingo Wald等人通过固定用于生成VPL的随机数序列来强制时间相干性[133]。Samuli Laine等人在基于VPL的渲染环境中,通过每帧只移动几个VPL来实现暂时稳定的间接光照计算[134]。Hyunwoo Ki等人提出一种光源聚类方法,允许智能选择VPL以获得在一段时间段内更为稳定的间接光照[135]。Miloš Hašan等人将点光源分组到簇中,并在多帧中重用簇的着色结果[136]。Greg Nichols等人以不同频率渲染光照来减少时间开销[137]。Martin Knecht等人利用时间相关的重投影滤波来提高间接光照的稳定性[138]。Tomá Barák等人设计一些改进方法以提高VPL采样方法的时间稳定性[139,140]。

 

4.感知交互的相关国内外研究进展

 

面向增强现实的感知交互主要涉及多通道智能化协同交互,包括基于眼球追踪的交互技术、虚实内容一致性交互、虚实空间共享协同交互等。

 

4.1 基于眼球追踪的交互技术

 

眼球追踪是一种测量用户当前视点的技术,通过获取以及解析用户眼球运动数据我们可以完成双向的交互任务。文献[90]将眼动追踪技术整合进光学透视型HMD。文献[91]使用红外相机拍摄眼部图像进而提取出瞳孔位置,并提供了一种支持个性化镜片定位的原型,以适应不同的眼间距离。文献[92]提出了一种自我校准的方法,用于将眼部图像坐标映射到屏幕位置,并强调了自校准方法的巨大潜力。文献[93]提出了一种检测高速眼球跟踪数据中的注视和平滑追踪运动的新算法,该算法采用三阶段程序将层间间隔划分为一系列固定和平滑追踪事件。该类交互方式中一个最典型的运用就是基于视觉注意力的渲染。设备会根据眼动情况,对显示设备的各区域进行自适应的渲染和显示,凭借降低注视点周围图像的解析度来大幅降低计算复杂度。然而,现有研究多聚焦于如何对眼球注释数据进行实时准确的追踪,而未见研究将眼球追踪数据与复杂场景的感知、交互、内容推荐进行有效结合,从而探索更加智能的交互方式。

 

4.2 虚实内容一致性交互

 

近年来关于虚实内容一致性交互的研究主要集中在触觉反馈上。文献[94]研究在空中进行飞秒激光和超声波组合,以影响用户的触觉感知。相较于传统方法同时组合了光和声场多个领域。文献[95]提出一种新技术用于在视觉上模拟真实物体遇到虚拟物体时应该发生的反作用力,使得可以将虚拟对象感知为具有不同的质量。由于基于伪触觉,所以上述技术不需要主动力返回设备。文献[96]引入了一个名为Reality Skins的系统,用户利用该系统可以通过真实对象的触觉反馈来移动或触摸虚拟对象。文献[97]展示了一个原型系统,通过提供被动触觉反馈,来加强VR环境中虚拟重量的感知,并指出听觉,视觉和触觉的组合能够调整视觉和触觉之间的不一致性。文献[98]将TactileVR运用到虚拟现实系统中,通过整合来自空间以及用户头部,脚步和手部的跟踪信息,将这些信息表示为3D环境中的虚拟代理。系统允许用户自由移动并与虚拟世界中共存的物理对象进行交互。文献[99]提出一种扭曲虚拟空间的系统,通过在人的周围环境中匹配物理道具的位置来提供触觉反馈,并提供了三种代替方法来实现这种扭曲:身体扭曲,世界扭曲以及混合扭曲,取得了非常显著的沉浸式交互效果。北京理工大学王涌天、刘越团队提出了深度感知的混合现实交互方法,通过在头戴增强现实显示设备上搭建深度传感器,支持用户手持虚拟物体进行编辑,具有较高的灵敏度[100]。上海交通大学杨旭波、肖双九团队提出面向教育领域的移动增强现实技术,将二维绘画图像进行三维增强现实显示,使用手机进行浏览[101]。中国科学院软件研究所田丰团队总结了真实感用户界面的概念、模型、交互技术、设计评估方法和关键应用系统[102]。

 

4.3 虚实空间共享协同交互

 

增强现实技术可以服务于异地/多人交互任务。文献[103]提出一种用于多用户手势交互的系统PathSync,支持远端操作,用户可以直观的与数字对象进行快速交互,并且具有高精度。但是它缺乏主动反馈,以及必须用移动模式增强对象,所以并不总是可行的。文献[104]展示了一种可穿戴的增强现实系统,可轻松实现多用户之间的信息共享,但不支持更复杂的交互方式。文献[105]推出了一种新型框架,该框架将实时功能与个人移动设备进行交互结合,使得大量用户能够实时同时进行交互。文献[106]提出一种新的交互方式,用于在3D增强物理环境下的协同操作;该方式专为手持设备而设计,为多用户之间协同交互创建了一种共享媒介。文献[107]提出了一种用于增强和虚拟现实远端呈现的端到端系统,可以实时重建包括人、家具和物体在内的物理模型,同时可以实时传输给远程用户,扩展了协同交互的可能,而不再依赖特定的手势等交互方式。中国科学技术大学刘利刚团队进而采用分治的思想,提出了一种大规模虚拟环境中实现真实行走体验的方法[108]。北京航空航天大学虚拟现实技术与系统国家重点实验室将增强现实协同交互应用在航空飞机发动机虚拟训练,实现了面向智能制造的增强现实落地示范应用。

 

5.研究进展分析与发展趋势方向

 

通过分析上述国内外技术的研究进展,不难发现面向增强现实的可视计算关键理论与方法仍未成熟:

 

(1)虽然目前基于视觉的定位与建模已有较多研究,但在实际复杂应用中仍然面临着诸多挑战:例如,在大尺度场景中,误差漂移严重;当场景中有大面积的动态物体时,很容易定位失败等;

 

(2)在虚实内容融合方面,传统方法需要提供额外的信息(例如场景几何、相机传感器参数等)作为辅助输入且扩展性较差,而基于深度学习的方法处于发展初期,渲染效果仍有待提升;

 

(3)在交互方面,现有的研究多关注如何更加准确、实时地捕获、分析来自用户的交互数据,如眼球追踪数据、手势数据等,以及如何设计触觉反馈硬件等。而在如何精准分析用户意图并与场景智能理解结合、虚实内容视觉一致性交互,以及多人/异地协作增强现实场景中对共享真实场景和虚拟内容进行增强等方面,有待进一步研究。

 

立足增强现实发展遇到的瓶颈,以及可视计算技术的研究发展,面向增强现实的可视计算技术的未来发展趋势包括:解决大尺度复杂环境下的场景精确建模、复杂环境下的虚实内容无缝融合和虚实空间协同感知与交互三个关键科学问题;建立支撑增强现实应用的可视计算基础理论;以行业应用为背景,使用真实复杂环境数据实现原型示范性应用,促进新一代增强现实关键技术突破。未来的研究方向可以包括:

 

(1)在基于场景理解与视觉技术的定位与建模方面:真实复杂场景的定位与建模是实现大尺度复杂环境下增强现实的前提。而在复杂环境下,场景中难免存在各种动态变化的物体,形成对场景定位与重建的干扰。可以以同时定位与地图构建作为基础技术,结合基于深度学习的场景理解,对几何与材质进行准确估计并对动态场景进行高质量建模,促进场景定位与建模的精确性和鲁棒性,从而实现具有智能感知的增强现实应用。

 

大尺度室内复杂场景的定位与重建:传统的基于视觉的跟踪定位技术,很容易受特征缺失、光照变化、动态干扰等因素影响,而且由于计算复杂度高通常只能处理小尺度环境的跟踪定位。可以基于多光照条件影像数据的场景表达和视觉定位技术,利用深度学习的超强表征能力将视觉信息和室内WiFi、地磁等信号融合起来优势互补,实现室内复杂环境下的鲁棒全局重定位;可以基于单/多目相机、深度相机和IMU等多传感器融合以及云-端结合的高精度同时定位与地图构建技术,并结合特征点、边和平面等多元视觉信息,实现大尺度室内相机鲁棒实时跟踪和场景建模;可以利用深度学习技术对复杂场景进行理解和分析,对复杂场景进行多属性抽取与层级表达。

 

场景内几何与材质精确重建与数字化:场景几何与材质信息的同步数字化可提升重建后三维内容的真实感,同时也可简化将场景数字化结果作用于增强现实应用的处理步骤。可以利用海量无标注自然材质图像,结合少量合成及人工标注数据,实现基于深度神经网络可微分渲染器的材质估计,探索自监督神经网络训练方法,解决复杂多变材质高还原度重建问题;研究形状、材质与环境光照的解耦方法,探索基于几何变换的领域迁移,解决任意几何形状表面的材质数字化问题;研究场景材质在线学习与更新方法,探索高效交替优化和轻量级神经网络推理方案,解决三维场景几何形状与材质属性实时协同精确重建问题。

 

实时高质量动态内容建模:动态环境的实时重建能够为增强现实应用提供更为丰富的数字内容来源,同时也是多人协同增强现实的关键技术之一。可以研究数据驱动的动态环境特征表示及提取方法,探索针对动态三维场景的多尺度深度学习技术,解决非刚性物体表面跟踪及动态环境重定位问题;研究基于场景语义信息和物理规律的动态环境全景重建方法,探索动态环境下语义信息融合及更新方法,解决实例级动态环境数字化问题;研究数据驱动的动态三维场景重建方法,探索高效紧致的动态环境表示方法,解决动态环境智能补全与优化问题。

 

(2)在场景感知的虚拟物体真实感渲染方面:高逼真度虚实内容融合直接影响增强现实的应用效果。可以从图像或视频中估计场景的光照信息、相机成像质量等渲染参数,结合场景几何信息,实现高逼真度的虚拟物体嵌入。

 

场景感知的渲染参数估计:渲染参数的估计主要依赖于场景的光照信息、物体材质信息和场景几何信息。其中物体材质信息已知,场景几何信息的恢复基于本项目中场景内几何与材质的同步精确重建的方法来完成。可以采用多种光源复合的光照模型,在已知物体材质和几何的情况下完成精确的光照参数估计。通过大量合成或真实数据对神经网络进行训练,以得到从输入图片或视频到其光照参数估计的映射。

 

虚拟物体真实感渲染:在恢复场景光源、物体材质和几何信息后,利用真实感渲染算法可以实现逼真的物体渲染效果。可以基于场景几何信息,考虑虚拟物体和真实世界物体的交互关系,如支撑、邻接、包含等物理关系,实现逼真的虚拟物体嵌入真实场景的效果。对于相机成像质量较低的情况,需要对成像质量进行估计并调整渲染方法使得渲染的虚拟物体和拍摄的真实物体具有相似的质量,例如消费级别的手机相机在拍摄时容易出现抖动、噪点等现象,在真实场景中嵌入虚拟物体时,需要结合成像质量对完美渲染的虚拟物体进行后处理使其与成像质量一致。

 

(3)在多通道智能化协同交互方面:增强现实的应用现在多处于以单机版、孤岛式为主的“展厅观摩式”体验阶段,辐射能力有待提高,而普及多人协同的网联式、规模化应用才能真正发挥增强现实的优点,有效地开展落地应用。可以从多通道交互模式出发,探索新型增强现实虚实空间协同感知与交互。

 

基于眼球追踪的自然交互技术:使用眼球跟踪技术可在用户观察内容时,同步捕捉、分析用户的行为,并为其提供有效的交互方式。可以对场景语义信息进行挖掘,先验地完成对场景中的内容进行分析和组织。使用眼球追踪技术,结合用户在场景中注视信息,分析用户可能的意图并做出内容推荐;探索眼球追踪与手势结合延伸出的新交互模式,验证其有效性并进行效果优化。例如:用户注视空间内物体,双掌向外推,表示推动物体;用户注释场景中的虚拟物体,手做出抓住、转动、推拉等动作,可以表示对该物体的编辑。

 

虚实内容视觉一致性交互:在真实场景下对虚拟内容的交互编辑应符合物理规律和视觉一致性,这是提升增强现实真实感体验的重要因素。例如:当用户对增强现实场景中的虚拟内容进行移动、放缩、旋转等交互操作时,虚拟内容应展现出与真实场景高度相关的交互反馈,其中除几何、颜色、光照等外观上的响应外,还应包括摩擦力、弹性等物理现象在视觉上的体现。可以结合真实场景几何、材质的估计结果,通过构建外观属性与物理属性的映射模型,解析识别出真实场景的部件级物理属性;利用上述映射模型,实现虚拟内容物理属性的迁移构建和编辑传播,为虚拟内容物理属性的赋值提供支撑,从而实现真实场景下虚实内容视觉一致性交互,增强用户对虚拟内容的感知。

 

虚实空间共享协同交互:同一场景的多用户共享是新一代增强现实技术的重要应用情景。可以结合图像稳定化、内容可视化等基础可视媒体内容增强技术,根据多人用户角色和任务分配,对多端用户协同感知进行共享虚实内容的增强。

 

6.结束语

 

新一代增强现实技术需要依赖可视计算理论与方法。2019年1月中国信息通信研究院发布的《虚拟(增强)现实白皮书》指出,我国近眼显示技术与国际一流水平差距不大,但在感知交互和内容渲染关键领域与国际一流水平存在显著差距。针对与国际一流水平存在差距的重要领域,立足面向增强现实的可视计算技术,需要解决大尺度复杂环境下的场景精确建模、虚实内容无缝融合、虚实空间协同感知与交互等关键科学问题,开展基于场景理解与视觉技术的定位与建模、场景感知的虚拟物体真实感渲染、多通道智能化协同交互研究。

 

建立理论基础:面向大尺度复杂场景的增强现实应用,建立以场景精确建模为基础、对虚拟内容进行场景感知的真实感渲染、对虚实空间进行协同感知与交互的可视计算理论,为新一代增强现实应用提供理论基础。

 

  • 促进关键技术突破:面向大尺度复杂场景增强现实的可视计算具有数据体量巨大、结构复杂且动静态混合、高度沉浸化、交互智能化等特点,提升大尺度复杂环境下场景建模精度、虚拟内容渲染效果和虚实空间多人协同交互性,为新一代增强现实技术提供关键技术支持。

  • 服务国家重大需求:面对全球新一轮的科技革命和产业变革,国务院提出了《中国制造2025》的制造业政策,以创新驱动作为基本方针之一,并推进信息化与工业化深度融合。推进增强现实技术与制造业数据采集与分析系统的融合,促进生产现场数据的可视化管理,提高制造执行、过程控制的精确化程度和协同制造、远程协作等新型制造模式发展,实现增强现实技术的智能化,为国家重大战略服务。

  • 推动学科发展:可视计算的发展,使得海量可视媒体数据信息的获取、分析和理解变得更加容易;深度学习和云计算技术的日益增强,提高了复杂数据处理的能力和规模;计算机图形学与计算机视觉、多媒体和机器学习等学科的不断紧密结合,使得可视计算技术能够更好地为我国数字化信息产业中的感知交互、内容制作服务。推动面向增强现实技术的深层次研究以及计算机图形学、计算机视觉等学科在下一个十年的蓬勃发展。

  • 作者简介

     

     

    王莉莉

    博士,北京航空航天大学计算机学院教授、博士生导师,中国计算机学会高级会员、虚拟现实与可视化技术专业委员会委员,中国系统仿真学会医疗仿真专委会秘书长,主要研究方向包括计算机图形学、虚拟现实、可视化等,电子信箱:[email protected]

     

    赵沁平

    博士,中国工程院院士,北京航空航天大学计算机学院教授、博士生导师,中国计算机学会会士、虚拟现实与可视化技术专业委员会委员、奖励委员会前主席、计算机软件能力认证(CSP)认证委员会主席,主要研究方向包括虚拟现实与人工智能等,电子信箱:[email protected]

     

    汪淼

    博士,北京航空航天大学虚拟现实技术与系统国家重点实验室助理研究员,中国计算机学会会员,2019年中国图学学会青年托举计划入选者。主要研究方向包括计算机图形学、虚拟现实和增强现实等,电子邮箱:[email protected]

     

    周彬

    博士,北京航空航天大学计算机学院讲师、硕士生导师,中国计算机学会会员、虚拟现实与可视化技术专业委员会秘书长、青年计算机科技论坛(YOCSEF)总部委员,主要研究方向包括虚拟现实、计算机图形学、机器人等,电子邮箱:[email protected]

Guess you like

Origin www.cnblogs.com/moonlightpeng/p/12076401.html