新的视频会议模式:StarlineProject

效果展示部分

〔映维网〕谷歌光场显示屏Project Starline

Starline 本质上是一个 3D 视频聊天室,旨在取代一对一的 2D 视频电话会议,让用户感觉就像坐在真人面前一样。

相互视频的人,不需要佩戴任何眼镜或者头盔,真实的就像坐在对面聊天。

用户参与度部分

google组织了117名参与者在九个月期间共举行308次会议,平均持续时间为35.2分钟,并产生了共有296份调查回复。

超过87%的调查回复Starline项目在在场感注意力个人联系反应评估四个方面,比传统视频会议略好或好得多。

(W-P)统计表明,所有情绪改善在统计上显著

他们回忆的会议内容相较于传统视频回忆大约多了28% ,参与者在我们的系统中也显著地表现出更多的非语言行为(手势、点头和眉毛运动),这有利于促进融洽的人际关系。

观察到的平均延迟为105.8 ms(标准偏差9.1 ms),在人类参与者感知同步对话所需的250 ms上限之内。

综合表明,即使Starline的3D重建在视觉上存在缺陷,仍然提供了一场更投入的交流体验。

技术细节

机械装置以及硬件配置。

首先来看看机械装置以及硬件配置。

Project Starline 系统围绕一个以 60Hz 运行的大型 65 英寸 8K 面板构建, 三个用于捕获彩色图像和深度数据的「捕获 pod」 , 还包括四个额外的追踪摄像头、四个麦克风、两个扬声器和一个红外投影仪 。

系统需要捕获来自四个视角的彩色图像以及三个深度图,共计七个视频流。系统还需要捕获 44.1 kHz 的音频,并以 256 Kbps 编码。

Project Starline 配备了四块高端 Nvidia 显卡(两块 Quadro RTX 6000 卡和两块 Titan RTX)来对所有这些数据进行编码和解码。

基于屏幕的系统的原因:
1、当前大多数AR和VR头盔的重量和不适
2、还消除了通过耳机捕捉人脸的困难
3、目前没有一款AR头盔有足够的视野跨越人体坐姿的宽度和高度。
所以选择了基于65英寸8K面板、33.1M全彩像素在60赫兹更新的头跟踪自动立体显示器。

视频系统

照明

选择漫射源的原因:
1、这种扩展的光线也比明亮的led直接照明更舒适。
2、完全一致的入射光线使人脸和其他3D形状看起来扁平和人造,阻碍了系统中的其他3D线索。

人脸跟踪

3D人脸追踪的重点在于定位眼睛、嘴巴、耳朵的位置。
眼睛的位置决定了渲染的立体视点,并且在显示的时候我们是需要引导左右视图指向对应的眼睛的。
嘴巴的位置使得音频捕获中的波束形成成为可能。
嘴和耳朵的位置有助于空间化音频渲染和串扰消除
3D人脸追踪的延迟大约是33ms,通过预测跟踪功能缓解延迟,但是又会放大噪声,导致渲染的视点抖动。采用双指数平滑 + 迟滞滤波器解决这个问题。

压缩和传输

对于压缩和传输方面
我们使用的是传统视频压缩传输多幅图像+立体重构的深度图。延迟融合,直到在接受端才渲染出左右眼视图。
颜色数据流和深度数据流使用H265编解码器 和 YUV420色度分采样进行编码。
颜色流每个channel使用8位,深度流每个channel10位。
省略双向编码(B)帧来减少编码和解码延迟。
这样就有7个视频流 + 跟踪的人脸点。将这个视频包到一个单一数据负载,使用WebRTC传输。
若传输超时,发送所有7个视频流的内部(I)帧来重新初始化
最终效果:产生的传输带宽在30~100Mbit/s,这取决于用户衣服中的纹理细节和他们手势的大小

图像渲染

每个立体深度图像的贡献以及由此产生的融合表面

我们将每一幅彩色图像投射到融合表面上,并使用从表面法线确定的混合权重(黄色)来组合这些图像

然后使用高斯滤波器自适应地沿深度不连续面模糊合成图像

而传统的3D图像建模渲染并非如此。

传统的TSDF步骤是这样的:

step1:在GPU显存中构建出一大块空区域volume,由多个voxel体素构成

step2:计算每个体素的TSDF值以及权重。SDF指的是它到最近的表面的距离,S代表截断

step3:得到一帧图像的TSDF结果,为0的体素表示物体的表面

step4:使用栅格更新法,也就是多个图片观测融合 。(其实是一个迭代形式的加权最小二乘解,通过不断按照上式融合观测值,可以构造出整个地图的 TSDF 场,并插值求出障碍物曲面 )

传统的体素融合是光线投射迭代采样预先计算的TSDF体素网格。

而Google的基于图像的方法通过投影采样输入深度图像并取加权平均值来实时评估融合的符号距离。

该方法在沿着光线前进时就进行了即时的TSDF融合,并使用CUDA将计算在光线上并行化,所以这个算法更加快速。

又因为它时读取缓存的2D纹理,避免创建了体素网格,所以这种方法相较于传统的计算TSDF来说更加节省显卡内存。

音频系统

音频子系统的设计目的是为了从声音环境中高质量地捕捉每个说话人的声音高保真压缩、传输和解压提取的声音,并将每个说话人的声音精确地、自然地三维空间化渲染给对方的听众。

step1:捕获音频

音频以44.1 kHz的采样率被采集,使用四个心型麦克风作为线性阵列排列在中间墙的下部捕获舱

音频捕获系统并没有执行“盲”声源分离来提取目标说话者,而是使用3D口部跟踪系统在自然对话过程中引导波束形成到说话者的嘴部。

step2:音频去噪处理

捕获之后依次执行下面的步骤:

1、环境降噪:系统只将两个参与者的声音从一端传到另一端

2、混响降低:收发双方均接受室内混响

3、声回波消除(AEC):扬声器播放的音频必须从麦克风捕获的信号中删除

那么我们是如何实现的呢?

  • 四个单向,心脏型麦克风是面向说话者的一般方向,创建了一个基本的方向接收模式,初始的噪声和混响减少。
  • 跟踪导向、超定向和噪声约束的最佳方向性波束形成。使用麦克风阵列来锐化定向接收,并进一步降低噪声和混响。
  • 自适应加权预测误差处理,进一步降低混响
  • WebRTC提供单通道降噪和AEC

step3:压缩、传输、解压

WebRTC可以进行压缩、传输和解压。

单通道44.1 kHz音频使用Opus编解码器(http://opus-codec.org/)以256 Kbps的目标速率进行编码。

WebRTC/Opus解码器处理传输相关因素,如采样率不匹配和丢包隐藏。

step4:渲染

音频捕获和渲染。立体声扬声器发出一个虚拟的双耳信号,利用串扰消除和振幅平移的混合组合,持续跟踪说话者和听者的位置。

首先,跟踪的说话者和听者的位置动态地结合一个通用的头部相关传递函数(HRTF)来产生一个实时跟踪的双耳信号。

头相关传输函数(Head Related Transfer Function;HRTF)用于描述声波从声源到双耳的传输过程,是一种声音定位算法。当声音向我们传输而来时,HRTF将对应于我们头部的相位与频率响应。

对于头相关传输函数HRTF,它们描述了人类解剖结构对来自任何给定位置的声音所产生的影响。

然后,利用听者跟踪双耳串扰消除将双耳信号转换为立体声扬声器输出具有相同的HRTF模型。

如果耳朵位置跟踪不准确,会导致人耳可听的高频噪声。

所以我们的处理是这样的:

  • 小于1500hz,耳间时差(ITD)提示主导感知声音定位
  • 大于1500hz,使用基于矢量的振幅平移的泛化方法对扬声器输出进行加权

左右耳朵的音量差异据取决于耳间水平差(interaural level difference;ILD),其中的延迟则称作耳间时间差(interaural time difference;ITD)或双耳时间差(binaural time difference)。

可以改进的点

1、在图像系统中,对于稀薄和半透明的几何形状(如头发和眼镜)、深凹和快速运动可能会导致重构深度图中的错误或空洞,从而导致不正确的几何和纹理错误。需要进行进一步的工作来克服这种伪迹。可以在渲染端部署相关去伪迹算法。

2、目前的视频压缩标准会利用视图中冗余减少总体带宽,但是主要是针对于相机阵列,缺乏实时编码实现。

3、期待更大像素密度的显示器以及新的显示器架构

4、Starline项目并没有创建并发送捕获用户的合并3D表示,而是**使用传统视频压缩传输多幅彩色图像和立体重构的深度图并且延迟它们的“融合”,直到在接收客户端渲染左右眼视图。**如果能找到一种合适的3D表示,可以在编码端合并之后再传输,减少带宽压力。

Guess you like

Origin blog.csdn.net/qq_42604176/article/details/121809946