浅谈音视频技术发展趋势和挑战!

  小到远程会议、直播娱乐,大到元宇宙话题中对于未来互动方式的讨论,音视频技术与我们生活方式的变革息息相关。目前,音视频赛道的技术突破,也给直播互动带来了很多新的玩法和形式。

  此前,ZEGO即构科技视频处理工程师李凯结合自己丰富的职业经历,给出了很多关于音视频技术发展、突破以及直播互动玩法持续“进化”等方面的思考和见解。

  早期看,音视频都是朝着更加高清、更加流畅、更加实时的方向不断去演进,再往前发展有 3 个技术趋势:

  第一:沉浸感,即面部的五官、声音的传达让用户有沉浸体验;

  第二:高保真,即在虚拟空间中,通过全息投影或者虚拟远程控制的真人形象;

  第三:强交互,元宇宙社交领域中强调强交互,同时我们与客户和用户交流时,也会涉及到强交互。

  直播互动新场景及面临的技术挑战

  2020 年被称作元宇宙元年,近几年元宇宙的概念也被广泛讨论,今年还出现了元宇宙直播间之类的新场景,那么下面我们来看看ZEGO即构科技视频处理工程师观察到了哪些比较有趣的应用场景。

  李凯:目前即构强调为用户搭建更多、更好的设施来服务客户,这也是从用户以及客户的需求出发的。 在客户的反馈过程中,这两个场景比较典型:第一个是强社交的场景,在元宇宙空间里一切虚拟化,人与人之间一对一的沟通交流以及多人在虚拟空间中的强社交需求非常多,这种交流包括五官的感知、空间音频的临场感,以及语音交互、肢体交互、表情交互等;第二个是娱乐互动的场景,比如游戏娱乐、直播娱乐、点播等等,这些场景的应用前期大多由游戏厂商参与。

  那么,业内预测元宇宙直播可能会成为直播的下一个风口,如何看待这个预测?假设元宇宙直播会成为风口,背后的依据是什么?

  李凯:2020年开始即构投入高保真数字人研发,2022年在国际期刊发表文章,即构一直在研究直播技术,再加上对行业的观察,我认为高保真虚拟数字人直播会成为一种趋势。同时,基于人脸三维重建,肢体动作的捕捉、驱动、渲染、合成,以及智能交互等数字人技术的发展,会使得数字人的制作成本极大降低,让更多的用户体验到高保真虚拟数字人的直播。 虚拟数字人最大的优势是什么?答案是“可控”。不同于真人直播中可能要面对主播跳槽、单飞的情况,虚拟人主播服从一切指令。另外,在元宇宙直播间,我们可以为用户搭建、定制随时切换的场景,搭建成本也非常低,通过数字化技术,特别是基于NeRF技术的发展,能给用户提供全新的体验。

  如今,用户对直播的沉浸式体验、高清分辨率之类的要求越来越高,除此之外,用户在新型直播互动场景中的需求还有什么样的特征,对哪些功能的要求更多?

  李凯:在和客户实际的交流中,我们有一种体会,那就是用户需要的是强悍的基础能力,能够在移动端的覆盖面更广,因此我们也在强调高保真,或者说高清、流畅、实时。但是在移动端仅仅实现高清实时的难度都是非常高的,比如说某个客户用到我们的超分技术,需要在移动端实现实时超分,将540P超分到1080P,目前能做到这一点的公司并不多;再比如,安卓的某些机型能不能跑540P?这些都是比较实际的问题,也反映了企业有没有能力将超分、甚至插帧、倍帧技术做得更好。 所以回归到问题本身,由于用户或者说客户是在付费体验,我们能不能加强他们的技术能力?以东南亚、印度的客户为例,他们的帧率可能只有七八帧,且机器性能比较差的情况下,能不能在移动端实现插帧?这是第一个重要的特征。

  第二,从客户、用户的角度来讲,他们在使用产品的时候,不仅想要听得见和看得清,与对方1个人或者更多人互动交流,更进一步的是想感受这个人就坐在身边,好像在面对面说话的强互动过程,这也是即构未来想要推出的加强交互的技术。

  新型直播互动场景非常受到关注,像沉浸式直播、同屏互动这些场景中,给音视频技术带来了哪些挑战?哪些能力还需要提升?

  李凯:像刚刚提到的强交互,对于实时性也就是抗弱网的能力要求很高,同时,音视频、空间相关的技术也需要做好,这两点是比较基础的要求。另外,还涉及到语音交互以及动作的交互,比如说自己的动作反馈出去之后,对方的动作能不能立刻反馈回来,这才是强交互的过程。 刚刚说到的都是软件对软件的场景,那么如果要在硬件上,比如说一个和真人大小相同的大屏幕上实现,这样的体验感、交流感会更强。还有跨屏互动,这个场景比较常见,两个人一左一右,那么左边的人抛一个东西,能不能到右边,右边的人能否通过视觉,或者是带一个手套来感觉到,这样的空间交流也很有挑战。 实际上,以上都是我们想象出来的画面,想要真正实现还是任重道远的,目前我们用的更多的是移动端的4G场景,但如果5G真正被普及开来,时延、高清应该也不会有太大的问题,而是会往交互空间临场感、语音方面去发展,相信一定会有更多的应用和玩法。

  那么,以虚拟直播的场景为例,大家对主播还有直播的场景的真实度有很高的要求,这其中涉及到哪些技术来支撑?

  李凯:在这个领域,即构和我们的友商一直在路上,想把这个能力做得更好,这样的竞争对于生态圈和用户来说都是一件好事。

  实际上,我们在这个生态圈中,更强调向更高清、更流畅、更实时的方向不断精进,包括音视频互动、场景化AI降噪方面的技术能力,比如说家里小朋友上网课的时候,厨房很吵,这涉及到主动降噪和空间3D音效的技术。再具体来讲,比如沉浸式音频技术,即基于声道的音频、基于对象的音频和基于场景的音频,把这些核心底层的算法做好,能给普通用户带来完全不一样的体验。

  更多音视频技术信息可访问即构科技官网查看。

猜你喜欢

转载自blog.csdn.net/weixin_57727992/article/details/129518819