计算机视觉: 可控的高质量人体生成

背景

关于人体动作的生成范式目前主流的方向可以分为以下两种:

  • Sequence based motion generation: 给定控制信号然后一次性生成连续的动作,能生成一些连续高阶语义的动作信号,因为其能看到整个动作信号。eg: MDM: Human Motion Diffusion Model, Tevet, et al, ICLR 2023
  • Auto-regression based motion generation: 由T帧的环境和状态去预测T+1帧的状态,这样用户能在中途去随时的改变输入信号,从而便于用户去交互去改变输出的状态。eg : Synthesizing Physical Character-Scene Interactions, Hassan et al. SIGGRAPH 2023

针对上面的两种范式的特点,在实际应用过程中,作者认为第二种范式会更加友好的方便用户去控制动作的生成或者说人的状态,以便后续生成的动作与环境做交互。基于此,本篇论文也是基于自回归模型范式。



COMODO: Online Controlled MDM model

作者提出COMODO自回归模型,它通过对可实时改变对基模型输入动作信号从而实现得到高质量的可控的动作,其输入的信号有三种模式分别是random sampling(生模模型随机采样无控制信号输入) / conditional inpainting(例如控制其动作的范围,只能在下图红线上做动作生成) / policy-based controlling (去改变一些点或者说是指定手或者脚的动作),最终实现整个流程。COMODO主要有3点贡献:

  1. 更好的多样性
  2. 更加灵活,方便用户随时改变输入信号做交互
  3. 更加高质量的结果

在这里插入图片描述


COMODO模型大致流程如下图,其可以大致分为三步:

  1. Noise Reconstruction : 标准的DDPM的噪声重建过程
  2. Step Inference: 通过推理多帧得到当前时刻的模型
  3. Motion Synthesis: 将基础模型与引入的前文说明的控制信号所结合生成最终的动作

在这里插入图片描述




简单来说,在推理过程中,当人工加入了控制信号后,controlled就会将这些信号转化为噪声信号加入到扩散模型的生成过程种,从而改变最终的生成动作结果。并且由于是将控制信号转换成噪声信号引入扩散过程,这个过程有一定的随机性,所以导致最终生成的动作可以产生多样性。

在这里插入图片描述

未来方向

  1. 细粒度可控制的动作生成
  2. 将生成的动作与真实(虚拟)世界的交互
  3. 大语言模型与动作生成模型的结合
  4. 其他

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/victor_manches/article/details/133312649