大模型与数字人的智慧融合，将如何驱动AIGC的新发展？

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

如今，数字人和大模型已经成为引人注目的热点话题。在这个数字化时代，我们不仅可以创造出高度逼真的数字人，还能够让他们拥有人类一样的思维能力，而大模型的出现更是为学习和决策提供了强有力的支持。然而，与其应用的广泛性相匹配的是一系列的挑战。2023年8月8日，AI TIME第十六期PhD Debate活动“数字人、大模型在AIGC中的应用与挑战”，特别邀请了香港科技大学计算机博士范杰森、香港城市大学博士朱向阳、中国人民大学信息学院DBIIR实验室博士生彭子乔、北京航空航天大学计算机专业直博生杨雪婷、中国人民大学信息学院DBIIR实验室二年级本科生吴豪宇。五位嘉宾围绕数字人、大模型等话题，畅谈了最新的技术研究成果、实践应用、挑战问题等，共同探索了大模型、数字人、AIGC在下一代互联网技术中的潜力与限制。

朱向阳：PointCILP V2：Prompting CILP and GPT for

Powerful 3D Open-world Learning

对比语言图像预训练（CLIP）在2D图像任务上表现出了良好的开放世界性能，但其在3D点云（即PointCLIP）上的传输能力仍远不能令人满意。朱向阳在报告中介绍了PointCLIP V2，这是一个强大的3D开放世界学习器，可以充分释放CLIP在3D点云数据上的潜力。通过实验对比，这种方法在零样本3D分类的三个数据集上的准确度显著超过PointCLIP。此外，PointCLIP V2可以以简单的方式扩展到少样本分类、零样本部分分割和零样本3D对象检测，展示了其对3D开放世界学习的卓越泛化能力。

彭子乔：SelfTalk: A Self-Supervised Commutative Training

Diagram to Comprehend 3D Talking Faces

语音驱动的3D人脸动画技术已经被应用扩展到各种多媒体领域。先前的研究已经从音频信号中产生了逼真的嘴唇运动和面部表情。然而，仅由数据驱动的传统回归模型面临着几个基本问题，例如难以获取高质量标签以及不同模态之间的域差距，导致结果缺乏精度和连贯性。彭子乔在报告中介绍了一种新颖的框架SelfTalk——一种通过在跨模态网络系统中进行自我监督来学习3D说话的面孔。该框架构建了一个由三个模块组成的网络系统：面部动画器、语音识别器和唇读翻译器。SelfTalk的核心是一个交换训练图，它促进音频、文本和唇形之间的兼容特征交换，并减少了对标记数据的依赖，使模型能够学习这些因素之间的复杂联系。

杨雪婷：D-IF: Uncertainty-aware Human Digitization

via Implicit Distribution Field

逼真的虚拟人在元宇宙、智能医疗、自动驾驶模拟等众多行业中发挥着至关重要的作用，但大规模地、高度真实地创造它们仍然是一个挑战。深度隐函数的利用开启了基于图像的3D服装人体重建的新时代，实现了具有精细细节的像素对齐形状恢复。随后，绝大多数作品通过回归每个点的确定性隐式值来定位表面。然而，是否应该平等对待所有点，无论它们与表面的距离如何？杨雪婷在报告中介绍了一种方法：用自适应不确定性分布替换隐式值，以根据点到表面的距离来区分点。定性的实验结果表明，这种不确定性分布损失训练的模型可以捕获更复杂的皱纹和真实的肢体。

吴豪宇：EmoTalk: Speech-Driven Emotional

Disentanglement for 3D Face Animation

语音驱动的3D面部动画旨在生成与语音内容和情感相匹配的逼真面部表情。然而，现有的方法经常缺乏对情感信息的标注并且面部表达能力有限。吴豪宇在报告中分享了情绪增强的语音驱动模型，利用多头注意力机制实现情绪信息引导人脸生成。具体来说，该方法首先从语音中解耦情绪特征和内容特征，然后对情绪编码器的预测效果进行评价和优化，最后将两段语音提取到的特征交叉重建，从而生成可控的个人与情感风格。实验表明，这种方法不仅具有更强的情感表示能力，也具有更高的精确度。

Panel

2D真人数字人和3D数字人，哪个才是未来？还有哪些可以继续研发的方向？

朱向阳：更看好2D真人数字人，因为它的数据形式是图像或视频，现有的技术中对于图像，视频的编辑或生成相比于3D数字人更加成熟。这两者未来的研究方向包括：如何解决数字人形象涉及的版权问题，如何提高数字人生成的创造性等。

彭子乔：目前来看，若要实现写实的数字人，2D数字人的效果更好，3D数字人受限于渲染技术以及其余各方面的技术发展很难达到真实的渲染效果。但是随着渲染技术的发展以及多元真实元宇宙的构建，3D数字人也有可能成为未来。对于这两者未来的研究方向主要为如何将数字人做得更加真实，如何让数字人形象更加多元化。

杨雪婷：2D和3D数字构建在不同的方向上，也有着不同的优劣之处。2D数字人在构建过程中使用像素级的方法，需要的信息量少于3D方法。对于驱动任务如人体姿态驱动等，3D数字人的效果更好。如果考虑高清或真实性，2D方法更胜一筹，而在驱动任务上，3D数字人表现更好。后续的研究方向可以将2D数字人与3D数字人的优点集成在统一的框架中，让2D数字人在驱动任务上表现更完美，让3D数字人实现更高清的效果。

吴豪宇：2D数字人和3D数字人在构建过程中共享的两个关键评价指标是可驱动性和真实性。3D数字人的可驱动性更好，2D数字人的真实性更好，未来的发展过程中两者会取长补短，率先达到平衡状态的一方可能是未来的主流。3D数字人在神经渲染方面的进步可能会让它更快地达到既可驱动又比较真实的情况。关于未来的研发方向，很重要的一点是使2D数字人和3D数字人两者优势互补，朝着真实性和可驱动性共赢的方向发展。

AIGC如何跟数字人技术相结合？有哪些方向可能可以碰撞出火花？

朱向阳：从学术的角度来讲，现有的生成式模型生成的内容未必完全符合客观的自然规律，AIGC可以赋能数字人技术，替换数字人所处的背景，但需要解决背景环境真实性的问题。此外，对于数字人本身特定部位的编辑需要更加注重细节性问题。

彭子乔：AIGC与数字人相结合可以为数字人的生成提供更具体的服务。目前涌现的诸多AI工具功能齐全，可以对数字人本身的形象进行优化，助力生成更形象、更真实、更多样化的数字人。

杨雪婷：首先，AIGC和数字人的结合可以有助于数据集的构建和发展，能够丰富数据集的多样性。基于多样性的数据集，我们可以进一步提高下游任务的性能；其次，数字人本身也是一种AIGC，AIGC的发展可以借鉴数字人的相关技术研究；第三，AIGC模型本身是数字人的生成任务，它可以辅助姿势的生成，使得生成的结果更具有多样性。

吴豪宇：对于AIGC辅助3D数字人生成的任务，如果缺少大规模的3D数据集，可以在大量的2D图片数据集上进行预训练，得到的图像生成模型作为“先验”帮助进行3D重建。此外，我们还可以利用AIGC技术降低下游任务在数据集方面的限制，比如利用AIGC的输出结果减少2D数字人和3D数字人之间的差距。

大语言模型对数字人和AIGC方向的研究会有什么影响？

朱向阳：从我的研究方向出发，可以使用大语言模型指导图像的生成，通过产生一些精准的描述，经过扩散模型产生与描述较匹配的图像，这将会是一个值得探索的方向。

彭子乔：可以使用大语言模型对生成的AIGC结果进行修改和指导，从而减少人工修改的工作量，更高效地完善我们的工作。对于大量人工的数据标注，不同人会存在不同的理解，而当我们对大语言模型限定prompt，它所输出的内容也相对稳定，这不仅减少人工标注的工作量，也能够保证数据集的一致性。

杨雪婷：大语言模型提供了更加精确、高速的自然语言处理能力，它与数字人、AIGC方向的结合可以更好地让系统理解并响应人类的语言。大语言模型可以与其他模块的数据相融合，丰富用户体验，使开发出的产品更加高效、智能、个性化。

吴豪宇：希望能够创造出大语言模型的研究范式，了解它是如何训练，如何推理和部署的，进而将它的研究范式迁移到数字人大模型的训练、推理和应用中去，将语言模型在文本上的成功复制到视觉概念上，是值得深入研究的。

数字人、AIGC、大模型技术将会如何影响下一代互联网技术？

彭子乔：目前AIGC等各种新技术的涌现让我们期待技术革命的出现，ChatGPT的出现也降低了很多专业工作的门槛，互联网给我们的生活带来更多便捷，用户更多的是充当参与者与使用者的角色。下一代互联网技术的发展将有可能让用户成为其中的建设者，很多工作无需思考，就可以轻松完成。

吴豪宇：在上一代互联网中，我们倾向于使用搜索引擎查找信息，但在使用的过程会有一些无效信息，而以ChatGPT为代表的互联网技术出现之后，它可以帮助我们更快捷地对一些信息进行整合，在未来ChatGPT将有可能深刻地代替现有的搜索引擎的位置。

杨雪婷：这三项技术的出现给我们带来了很多便捷，同时也让我们有更沉浸式的体验。未来，我们每个人可能在互联网上有自己的数字分数或IP形象，但这也会带来一些隐患。生成技术与安全技术的发展是相辅相成的。

朱向阳：我们在将大语言模型用作搜索引擎时，它会根据自己的生成能力和记忆数据给予解答，但是回答内容的正确性无法得到保证，可能会引发伦理、安全、道德性问题，未来需要开发相应的算法规避这种风险和负面影响。

数字人、AIGC、大模型研发和应用过程中可能会面对哪些伦理和隐私挑战？应该如何规避和应对？

杨雪婷：现有的互联网技术在应用的时候会面对一些隐私的挑战，但也会随着时间的推移变得更加智能，能够更精准地区别AI生成的内容与真实的内容。

吴豪宇：在数字人、AIGC、大模型的研发过程中，我们首要面临的是隐私或版权问题。比如训练数据的版权问题，我们需要前期在训练模型前对训练数据有所筛选，后期对生成内容进行版权的界定。

朱向阳：首先我们可以在大模型更新迭代的过程中解决其中的问题，但深度学习模型的内部像一个“黑盒”，未来发展的方向我们短期内也无法预测，这也驱动我们进一步研究深度学习模型的可解释性。在规避伦理性、安全性问题的过程中，可以不完全依赖人力，也可以适当利用算法的力量，比如可以研发伦理检测、安全检测的大模型去辅助人类解决这些潜在的挑战。

彭子乔：在大模型训练之前使数据集足够干净可以在某种程度上规避伦理问题。在伦理问题出现之后，比如ChatGPT、New Bing的做法是不断限制模型的回答，从而减轻不好的影响。对于隐私问题，比如人脸识别中应用到联邦学习技术，多个人之间并不共享数据集，而是共享权重，让权重在多个数据集之间共同提升模型的能力，减弱了对原始数据的影响。

整理：陈研

审核：朱向阳，彭子乔，杨雪婷，吴豪宇

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1300多位海内外讲者，举办了逾600场活动，超600万人次观看

我知道你

在看

哦

点击 阅读原文 查看回放！

大模型与数字人的智慧融合，将如何驱动AIGC的新发展？

猜你喜欢