合唱直播解决方案

合唱直播,其实是 KTV 直播加上合唱的场景,真实地还原了在线下 K 歌房中合唱的玩法。合唱直播,指的是两个或者以上的用户,随着伴奏看着歌词一起 K 歌。合唱直播和 KTV 直播的关键区别在于,有两个或者以上的用户一起 K 歌,混音的场所(在哪个终端?是终端还是云端?)是考虑的关键,最终要让歌声、伴奏和歌词同步。KTV 直播混音的场所是歌手端设备,而合唱直播的混音场所可以是歌手端设备,也可以是云端,要根据不同的方案而定。

去年 11 月,马云和王菲合唱一首《风清扬》,作为《功守道》的主题曲,成了刷爆朋友圈的热点。如果马云和王菲使用合唱直播技术在线上合唱的话,会有什么效果呢?

从技术的角度来看,本质上合唱直播是在视频直播的基础上,混音技术、媒体通道传数据技术甚至加上连麦直播技术的应用。

一般来说,合唱直播有两种方案:

方案一

两个歌手不连麦,混音在终端完成,歌声、伴奏和歌词严格同步,但是只有一个歌手能听到另外一个歌手的歌声。方案一的架构图如下:
这里写图片描述
这里以马云和王菲线上合唱为例,来说明方案一的业务逻辑:

王菲的手机从音乐库下载 MV 播放,包含伴奏音乐、MV 视频和歌词;

王菲伴随着伴奏音乐演唱,歌声和伴奏音乐混音,形成音视频流 X 推送到实时传输网络;

马云的手机从实时网络拉取音视频流 X 播放,伴奏音乐包含王菲的歌声和 MV 伴奏;

马云伴随着伴奏音乐演唱,歌声和伴奏被混音,形成音视频流 Y 推送到实时传输网络;

音视频流 Y 经过实时传输网络加速后,被转推内容分发网络(CDN)进行分发;

直播间的观众从内容分发网络拉取音视频流 Y 播放。

至此,直播间的观众能听到马云和王菲合唱的歌声,好像他们两个就是在同一个 KTV 里面合唱一样。方案一的优点是,两位歌手的歌声、画面和歌词严格同步,观众的体验最优;不足是,王菲听不到马云的歌声,而马云能听到王菲的歌声,两位歌手没有连麦,缺乏互动。

方案二

两个歌手连麦,混音在云端完成,两个歌手能相互听到对方的歌声,但是歌声、伴奏和歌词难以做到严格同步。方案二的架构图如下:
这里写图片描述
这里以歌手 A 和歌手 B 合唱为例,来说明方案二的业务逻辑:

歌手 A 从音乐库下载伴奏音乐和歌词,歌手 B 同样;

歌手 A 随着伴奏音乐和字幕演唱,歌手 B 同样;

歌手 A 把采集到的歌声和视频,封装成音视频流,推送到实时网络,歌手 B 同样;

歌手 A 从实时网络拉取歌手 B 的音视频流播放,歌手 B 同样,两个歌手实现连麦互动;

在云端把歌手 A 的歌声、歌手 B 的歌声、伴奏音乐混音,封装成音视频流;

在云端把歌词加入音视频流的媒体通道传输;

在云端把音视频流转推内容分发网络;

观众们从内容分发网络拉取音视频流播放。

这样可以实现全互动的合唱直播,好像歌手 A 和歌手 B 就在同一个 K 歌房里合唱一样:

歌手 A 和歌手 B 相互能听到对方的歌声;

歌手 A 和歌手 B 跟随着伴奏一起演唱;

观众们能听到歌手 A 和歌手 B 合唱,歌声和伴奏还有歌词大致同步。

方案二的优点是互动感强,两位歌手能相互听到对方的歌声,歌手的体验最优;不足是两位歌手的歌声、伴奏还有歌词很难做到严格同步,原因是两个歌手的歌声、还有伴奏的音乐(三者对应的时间戳)抵达云端的时间难以做到完全一致,受到网络延迟的影响较大。网络状况好的情况下,同步效果较好,和方案一相当,网络不好的情况下,不同步的情况就比较明显。

作者简介

冼牛,即构科技资深语音视频专家,北京邮电大学计算机硕士,香港大学工商管理硕士,多年从事语音视频云服务技术研究,专注互动直播技术、语音视频社交和实时游戏语音。

猜你喜欢

转载自blog.csdn.net/sinat_20146421/article/details/81675087