一文搞懂华为ML Kit数字人，超简单集成

一、数字人介绍

虚拟数字人是综合多模态AI能力，结合图像视觉、情绪生成、语音克隆、语义理解等多种AI技术，广泛应用于媒体新闻主播、金融客服、虚拟游戏等众多场景。

数字人在行业中的应用：

在这里插入图片描述

二、HMS ML Kit数字人

HMS ML Kit数字人是依托华为公司强大的图像处理、语音合成、声音克隆、语义理解等AI核心技术，全新推出的综合多模态AI能力。面向教育、新闻、多媒体制作企业，提供高质量、低成本、创新体验的内容创作模式。对比其他厂商数字人，HMS ML Kit数字人的优势明显：

支持超高清4K影院级效果

支持大屏展示，全身细节纹理均达到同等清晰度
生成与真实背景图像无缝融合，高清分辨率下无融合痕迹
嘴唇细节、口红反光分明、纹理清晰
牙齿清晰可见，齿缝纹理清晰真实

合成效果逼真度

真实还原牙齿（非贴图）、嘴唇、甚至口红反光细节。
真实还原面部光照、对比度、阴影、酒窝等细节。
嘴部皮肤生成纹理与真实纹理无缝对接。
相对3D主播，无动画生硬感。

在这里插入图片描述

三、HMS ML Kit数字人生成数字人视频展示

在这里插入图片描述

从上图中我们可以看到HMS ML Kit数字人超高清的真人视频效果，不仅口齿清晰，ML Kit数字人还对一些细节的掌控更加优秀：嘴唇细节、口红反光细节、更加真实的面部发音以及细致的面部光照效果。

四、HMS ML Kit数字人服务集成

4.1 服务集成过程

4.1.1 提交需要生成的文本信息

调用【定制文本转虚拟数字人视频接口】，将一些配置（config）和需要转化的文本（data）通过该接口传输至后端进行处理：首先，要对传输进来的data的文本字符长度进行校验，中文文本最大字符长度不得超过1000，英文文本单个字符长度不得超过3000，英文文本单词长度不得超过3000，对于传输进来的config做非空校验，然后将config和data提交，将文本文字转化为音频文件。

4.1.2 异步执行的定时任务

会有一个异步执行的定时任务处理提交的数据，调用TTS提供的算法，将文本文件转化为视频文件，并且将上一步得到的音频文件与视频文件合成起来。

4.1.3 查询文本是否转化成功

调用【文本转虚拟数字人视频结果查询接口】，实时查询异步执行的文本转视频是否已经执行完毕；如果执行完毕，将会返回一个生成视频的链接。

4.1.4 根据视频链接访问视频文件

根据【文本转虚拟数字人视频结果查询接口】所返回的视频链接，访问生成的视频文件。

4.2 服务集成的主要接口

4.2.1 定制文本转虚拟数字人视频接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/submit

请求参数：

在这里插入图片描述

主要功能：
输入文本转换成虚拟数字人视频接口，此接口为异步接口，当前版本转换需要一定时间，采用离线方法，最终转换结果需要通过【文本转虚拟数字人视频结果查询接口】查询。如果提交的文本已经合成过，直接返回播放URL。

主要逻辑：
根据前端页面所传输的需要合成的文本数据data，根据config所提供的一些配置，将文本文字转化为音频文件。异步执行多线程，根据所提供的算法模型生成合乎发音的视频文件，然后将视频文件与音频文件合成起来，生成所需的数字人视频。如果提交的文本已经合成过，直接返回播放URL。

4.2.2 文本转虚拟数字人视频结果查询接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/query

请求参数：

在这里插入图片描述

主要功能：

根据提交文本ID批量查询转换状态。

主要逻辑：
根据前端页面所传输的合成的文本数据ID列表，即textIds字段，查询所得到的视频文件合成的任务状态，将得到的状态结果存在集合，作为返回参数，插入到返回的请求当中。如果请求的文本已合成过，直接返回播放URL。

4.2.3文本转虚拟数字人视频批量下线接口

URL：
http://10.33.219.58:8888/v1/vup/text2vedio/offline

请求参数：

在这里插入图片描述

主要功能：
根据提交文本ID批量下线。

主要逻辑：
根据前端页面所传输的合成的文本数据ID数组，即textIds字段，对该数组内所有ID对应的视频进行下线设置，改变其状态为下线状态，同时删除视频文件，被下线的视频无法播放和观看。

4.3 HMS ML Kit数字人服务实现的主要功能

HMS ML Kit数字人服务的功能非常强大：

双语发音：由于目前系统支持中文发音和英文发音，可以传输中文文本和英文文本作为发音数据。
多个虚拟主播形象：支持不同虚拟主播发音，目前系统里配置了4名虚拟主播，分别为：中文女士发音，上海日报，英文女士发音，英文男士发音。
画中画视频播放：除了对虚拟主播的设置以外，视频播放支持画中画即小窗播放视频，在画中画模式播放视频时，视频窗口随屏幕移动，可以一边查看文本，一边播放视频，视频窗口还可以拖拽到任意位置，以至于不遮挡文本位置。
可调节的语速，音量，音调：可以满足不同需求的发音速度，发音音量以及发音音调。
多背景设置：可以设置不同的虚拟主播背景，目前系统内置了透明背景、绿幕、科技主题三种背景，还可以通过上传图片的方式自定义自己喜欢的背景进行设置。
字幕设置：系统可以自动配置字幕，可以设置中文字幕，英文字幕或者双语字幕。
多布局设置：可以由参数调节虚拟主播出现在屏幕当中的位置：左测，右侧，屏幕中间；以及调节虚拟主播人物大小和展示全身或半身。在选择虚拟主播出现在屏幕当中的位置为左边或者右边的时候，还可以设置台标和台标出现的位置，以及在视频当中显示需要播放的视频文件，做到视频画中画的效果，以还原真实的新闻播报的场景。

视频画中画展示：

在这里插入图片描述

五、结后语

作为一名开发者来说，在使用HMS ML Kit数字人生成一个视频之后，尤其是视频画中画的功能，令我叹为观止。这切切实实地还原了真实主播所处的新闻播报场景，不禁让人畅想，在完善化的数字人推行下，是否可以完全替代真人播报呢？

更详细的开发指南参考华为开发者联盟官网

https://developer.huawei.com/consumer/cn/hms/huawei-mlkit

原文链接： https://developer.huawei.com/consumer/cn/forum/topicview?tid=0202351501845870559&fid=18
作者：say hi