亮相央视，讯飞与相芯联手打造虚拟主持人“康辉”

5月2日，在CCTV 13的特别报道《直播长江》中，虚拟主持人“康辉”与记者在现场进行对话互动、表演绕口令，声音和形象都栩栩如生。

屏幕上这位让观众“似曾相识”的虚拟主持人——“康晓辉”是通过科大讯飞旗下的讯飞智声平台的AI语音合成技术对康辉老师的声音进行合成模拟的。他的形象和实时互动，则是通过相芯科技FaceUnity的虚拟形象生成（P2A）和虚拟形象驱动技术实现的。此次相芯科技和科大讯飞联手打造的虚拟主持人，让观众们能闻其声，也见其人。

一起来看下CCTV的报道吧↓↓↓

虚拟主持人的形象是怎么创建的？

一张照片就够了

虚拟主持人的创建过程比所有人想象的都要简单，相芯科技仅使用了一张央视主持人康辉的照片，通过相芯科技的P2A（Photo-to-Avatar）技术，基于二维图像重建人脸三维模型，直接生成了全动态的虚拟主持人“康晓辉”。这项技术相芯科技已经做到了消费级，无需高端设备，只需普通摄像头，便可在Android所有机型、iOS平台、PC端实现与高端设备媲美的效果，也就是说，普通用户在自己的手机里就能完成专属于自己的虚拟形象。在生成3D虚拟形象的过程中，还能根据用户的实际需求，对虚拟形象的服装、造型、环境光线、背景等进行个性化自定义，并提供真人版和卡通版两种风格。

▲央视主持人康辉和虚拟主持人康晓辉

虚拟主持人的实时驱动

从新闻画面里可以了解到，虚拟主持人“康晓辉”，并不是提前做好的动画，而是可以实时操控的。这个实时驱动是通过相芯科技的虚拟形象驱动技术实现的。相芯科技通过智能人脸检测，精确捕捉面部肌肉运动节点并标记特征点（眼睛、口鼻、眉毛、面部轮廓等），获取面部表情系数并将表情同步至3D虚拟形象面部，从而驱动3D虚拟形象。随着视频图像输入，不断对人脸特征和表情进行自适应，从而在3D虚拟形象上逼真地还原人物表情。这项技术同样只需要普通摄像头就能实现。

语音合成：声音以假乱真

虚拟主持人“康晓辉”的声音，让作为康辉的同事的记者都感觉很相似，连称可以以假乱真了。而这一黑科技，正是来自科大讯飞旗下的讯飞智声平台。讯飞智声是基于讯飞语音合成技术专业提供音库定制及语音合成应用平台，具有多情绪、效率高、可定制和多语种等优势。个性化音库的制作，解决当前人类保留和复用声音时，在时间、空间和音色还原度等多维度遇到的问题。当前技术及方案服务对象已经全面覆盖了企业、明星IP及个人用户。而此次虚拟主播“康晓辉”的打造，正是对知名央视主播康辉老师这一形象及声音IP的高相似度模拟，属于在广电行业的IP服务案例落地尝试。

智能语音和虚拟形象正在以各种各样的方式来不断融入了我们的生活，而随着技术的不断推进，它们也给我们的生活带来更大的便利。总之，要语音合成找科大讯飞，要虚拟数字形象生成和驱动找相芯科技，就对了！

关于相芯科技

相芯科技，全球领先的3D数字形象技术提供商。我们为客户提供3D数字形象生成及表情驱动、2D/3D脸部动态贴纸、智能美颜美型、手势识别等SDK开发包，产品被广泛应用于短视频、社交、直播、游戏、影视、教育、医疗等领域。

亮相央视，讯飞与相芯联手打造虚拟主持人“康辉”

猜你喜欢