超百万人用它生成3D头像，这项技术刚刚中选了SIGGRAPH Asia 2022 - 代码天地

超百万人用它生成3D头像，这项技术刚刚中选了SIGGRAPH Asia 2022

企业开发 2023-05-17 04:49:29 阅读次数: 0

如何才能做一个和真人一样的 3D 头像？

先上传一张照片：

变成这样：

换一个人的照片：

再看一个例子：

眼镜也可以放进来：

在此基础上，还可以换上各种各样的发型、饰品，眼睛、帽子、发色、胡须，皆可编辑。

这效果，是不是可以做一套自己专属的表情包了？

创造这些 3D 头像的 AI 模型，是字节跳动技术团队创造出来的 AgileAvatar，已经中选了计算机图形学顶会SIGGRAPH Asia 2022。而它的前身，是我们去年介绍过的 AgileGAN 。

AgileAvatar 使用自监督学习的方式训练完成，也就是说，它无需耗费大量“人工”，直接实现“智能”，不需要标注数据即可训练，因此也更容易变成可用的产品。

应用于 TikTok Avatar 以及创建游戏角色

AgileAvatar 技术已经应用在 TikTok 中，今年年初的 TikTok Avatar 功能背后的模型就是它，这个功能上线后迅速收获了超过百万尝鲜用户。

另外，AgileAvatar 也将会在近期上线的游戏《星球：重启》中落地，这是一款朝夕光年旗下多端发行的科幻生存游戏，当玩家进入游戏创建角色时，可以上传真人照片，借助云端算法模型，创建和本人更像、更生动的虚拟角色。

注意，左下角是上传到游戏里的原图

即便你上传的不是真人照片，也可以基于图片来创建你的游戏角色。

甚至你上传的是表情包也行：

三个步骤输出可编辑 3D 头像

如何让照片变成 3D 头像？论文中介绍了三个主要的步骤。

先输入的一张正面的人脸照片。

第一步，借助一个风格化模型，直接把照片变成一个平面的头像。在这一步里，为了让最终的 3D 头像更像这个人本人，模型忽略了照片中的表情，更真实的展现出这个人的样貌。

注意，这还是一张平面图

这一步使用的模型，正是作者团队此前曾中选 SIGGRAPH 2021 的 AgileGAN，并做了两个调整：

一方面，为了让照片中人物的表情不影响生成效果，作者微调了 GAN 模型的生成器，只用无面部表情的数据来训练，这样模型就只会生成无表情的图形；

另一方面，为了保留照片里人物的眼镜等样貌特征，作者提出使用携带语义信息的 W+ 空间，相比于 AgileGAN 的 Z 空间，能更好的保留这些语义特征。

就像这样，下图左边一列是输入的原图，中间一列是原本 AgileGAN 的生成结果，右边一列是调整后的生成结果，人物的表情消失了，眼镜保留了。

第二步，通过一个自监督学习的模型确定一组参数，根据这组参数，模型把上面那张平面图，变成下面这样的 3D 头像。

现在，它是3D的了

这一步里，论文作者自己造了一个可微分的神经渲染器，直接集成在模型里，它可以达到图形学引擎的渲染能力，同时也可以让模型能在自监督学习的框架下进行训练。

为什么一定要造一个渲染器放进去呢？

一般来说，想要给这样一个 3D 头像建模，需要用到两种参数：

一种叫离散参数，它用来确定眼镜、头发等部位的类型，决定一个部位“是什么”；

另一种叫连续参数，靠它确定人脸长度、眼睛大小等数值，决定一个部位“有多大”。

训练模型的时候，如何把他们两个放在一起优化一直是一个棘手的问题。于是作者决定不强制模型估计离散值，而是将离散空间扩展到连续空间进行优化，这样能够帮助收敛。

然而，解决了一个问题，另一个问题出现了：

这样会导致算法生成的是一个粗糙的 3D 形象，没法用现成的图形学引擎来渲染——那就只能现造一个。所以就有了下面这一步，生成一个精细的头像，它的参数空间和 3D 头像的建模系统完全匹配。

第三步，用搜索的方式从预先设计好的大量素材中找到和它最像的头发和肤色，把它从一个粗糙的 3D 头像变成一个精致的矢量化 3D 头像。

三个步骤完成后，把生成的 3D 头像输出为一个可编辑的 3D 模型，进行你想操作的任何编辑。

比如可以修改发型和装饰：

看，发型、发色、胡须、眼镜都可以编辑

可以做表情包：

可以实现人脸驱动，在录视频的时候当做虚拟头像：

AgileAvatar 项目相关链接

项目网站：

https://ssangx.github.io/projects/agileavatar

论文地址：

https://arxiv.org/abs/2211.07818

字节跳动智能创作团队

AgileAvatar 的研发者来自字节跳动智能创作团队。

智能创作团队是字节跳动 AI、特效和音视频创作技术和业务中台，负责了各短视频平台和视频剪辑产品的核心技术和业务研发，涵盖了深度学习、计算机视觉、图形学、语音、拍摄编辑、特效、客户端、服务端工程等技术领域，并以多种形式向公司内部其他各业务线以及外部合作客户提供业界最前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

字节跳动智能创作团队部分技术岗位正在招聘中，欢迎点击文末「阅读原文」或扫描下图二维码投递简历。

猜你喜欢

转载自blog.csdn.net/weixin_47098359/article/details/127901397

超百万人用它生成3D头像，这项技术刚刚中选了SIGGRAPH Asia 2022

The 2022 ICPC Asia Xian Regional Contest(2022西安站)

SIGGRAPH Asia 2018 papers

上科大最新工作！实时面捕天花板，微表情像素级一致，AI让你告别手Key｜SIGGRAPH Asia 2022

开源盛宴ApacheCon Asia 2022即将开幕，精彩不容错过！

Apache Pulsar 社区年度峰会 Pulsar Summit Asia 2022 即将召开

【2016 Asia China-Final D题】

ACM-ICPC 2017 Asia Urumqi D. Fence Building

The Preliminary Contest for ICPC Asia Nanjing 2019（A B D H F）

2016 ICPC Asia Qingdao Onsite D. Lucky Coins

2018 ICPC Asia Beijing Onsite D. Frog and Portal

技术选型分类（2022）

浙大提出神经3D重建新工作！收录图形学顶会SIGGRAPH 2022

第六届智能家居亚洲峰会暨精品展（Smart Home Asia 2022）将于10月在沪召开

CGT Asia 2022第二届亚洲细胞与基因治疗创新峰会将于2022年7月10日-111日在上海举办

NVIDIA的低开销OpenGL方案NV_Command_List【Siggraph Asia 2014】

CGT Asia嘉年华｜3D细胞培养与类器官研发峰会10月广州召开

【观察：蓝牙5技术干货】蓝牙亚洲大会 Bluetooth Asia 2018 (3)

bookmarks_2022_3_3

技术周报·2022 年的 CSS

AI芯片技术-2022年

2022年Tesla技术分享

实习日志_2022/3/10

实习日志_2022/3/11

实习日志_2022/3/9

PHORHUM(CVPR2022)-3D重建论文解读

@UPC8377 @ACM-ICPC-2018-ASIA YOKAHAMA REGIONAL D: Playoff (DFS)

The 2016 ACM-ICPC Asia China-Final Contest Gym - 101194D Ice Cream Tower

2016 ACM-ICPC Asia China-Final D - Ice Cream Tower（二分&贪心）

2018-2019 ACM-ICPC, Asia Nanjing-D： Country Meow（三分）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)