Mixlab工作坊工具箱:talking face

Talking face 是一种计算机图形学和人工智能的技术,可以实现将一段音频转换为逼真的人脸动画。它可以用于视频游戏、虚拟主持人、语音助手等应用中,使人机交互更加自然和生动。

1- SadTalker-Video-Lip-Sync

a6dc0bef9c73f4f5d114b5b025b1d52e.gif

*基于SadTalkers实现视频唇形合成的Wav2lip。通过以视频文件方式进行语音驱动生成唇形,设置面部区域可配置的增强方式进行合成唇形(人脸)区域画面增强,提高生成唇形的清晰度。使用DAIN 插帧的DL算法对生成视频进行补帧,补充帧间合成唇形的动作过渡,使合成的唇形更为流畅、真实以及自然。

https://github.com/Zz-ww/SadTalker-Video-Lip-Sync

2- GeneFace

1c39cb9f4c38ff4ffa3ba05a33a394ed.png

*GeneFace: 基于NeRF的使用任意语音音频生成逼真的说话人视频。NeRF神经辐射场用来提高图像的3D真实性和保真度。

https://github.com/yerfor/GeneFace

3- one-shot-talking-face

fd2b77a3ff31239c28f9c6086efaf4c9.png

*重点在提升说话人的语音和视觉动作之间的一致性。作者开发了一个Audio-Visual Correlation Transformer (AVCT)模型,通过关键点密集运动场表示语音驱动的说话动作。同时引入音素来表示语音信号,从而使AVCT可以自然地适应不同的演讲者。

https://github.com/FuxiVirtualHuman/AAAI22-one-shot-talking-face

更多信息:

Mixlab生成式人工智能工作坊,跨学科·无限创造·实验

已更新至知识库

5320b4c8eb3d5864617afd8a9cd324b9.jpeg

合作联系

猜你喜欢

转载自blog.csdn.net/shadowcz007/article/details/130497932
今日推荐