Warm congratulations to the MMLab team of Nanyang Technological University, Singapore for a total of 20 papers being included in ICCV 2023!

Inventory

Text2Performer

:::block-1

Paper : "Text2Performer: Text-Driven Human Video Generation"
Link : arxiv.org/pdf/2304.08 ...
Source code : github.com/yumingj/Tex ...
Project : yumingj.github.io/projects/Te ...
Introduction : Text2PerformerIt is a method to generate realistic human video through text. It is able to synthesize video sequences from text describing the appearance and movements of actors. Unlike general text-driven video generation, it requires the demonstration of complex actions while maintaining the appearance of synthetic characters. Text2Performer has two innovative designs: 1) decomposing human representations and 2) diffusion-based action sampling. First, it maintains appearance consistency across generated frames by unsupervised decomposition of the VQVAE latent space into human appearance and pose. It then uses a continuous VQ-diffuser to sample a sequence of pose embeddings to better model motion. Finally, it uses a motion-aware masking strategy to enhance temporal consistency. Text2Performer is able to generate high-quality human videos with diverse appearances and flexible motions at resolutions up to 512×256.

:::

StyleGANEX

:::block-1

Paper : "StyleGANEX: StyleGAN-Based Manipulation Beyond Cropped Aligned Faces"
Link : arxiv.org/pdf/2303.06 ...
Source code : github.com/williamyang ...
Project : www.mmlab-ntu.com/project/sty ...
Introduction : StyleGANGreat progress has been made in face manipulation, but StyleGAN is only suitable for pre-trained fixed image resolution The cropping below is aligned to the face. To address this limitation, the researchers propose a simple and effective solution by using dilated convolutions to adjust the receptive fields of StyleGAN shallow layers without changing any model parameters. In this way, small features with a fixed size in the shallow layer can be extended to adapt to large features with different resolutions, making it more robust to non-aligned faces. To achieve realistic face inversion and manipulation, they introduce a corresponding encoder that provides first-layer features extending StyleGAN in addition to latent style codes. The effectiveness of their approach is verified by performing diverse face manipulation tasks at different resolutions, including facial attribute editing, super-resolution, sketch/mask-to-face conversion, and face cartoonization.

:::

ReMoDiffuse

:::block-1

论文:《ReMoDiffuse: Retrieval-Augmented Motion Diffusion Model》
链接arxiv.org/pdf/2304.01…
源码github.com/mingyuan-zh…
项目mingyuan-zhang.github.io/projects/Re…
简介: 3D 人体运动生成对创意产业至关重要。最近的进展依赖于具有领域知识的生成模型进行文本驱动的运动生成,从而在捕捉常见运动方面取得了实质性进展。然而,对于更多样化的运动,其性能仍然不尽如人意。在这项工作中,作者提出了ReMoDiffuse,一种基于扩散模型的运动生成框架,通过集成检索机制来改进去噪过程。ReMoDiffuse通过三个关键设计增强了文本驱动的运动生成的泛化性和多样性:1)混合检索从数据库中找到语义和运动相似性方面合适的参考样本;2)语义调制Transformer有选择地吸收检索知识,使其适应检索样本与目标运动序列之间的差异;3)条件混合在推断过程中更好地利用检索数据库,克服了无需分类器引导时的尺度敏感性。

:::

Robo3D

:::block-1

论文:《Robo3D: Towards Robust and Reliable 3D Perception against Corruptions》
链接arxiv.org/abs/2303.17…
源码github.com/ldkong1205/…
项目ldkong.com/Robo3D
简介: 这项研究致力于提高3D感知系统在真实环境中面对自然破坏时的稳健性。现有的数据集虽然在"清洁"方面很出色,但无法真实反映感知模型在实际应用中的可靠性。因此,研究人员提出了Robo3D,这是一个全面的测试,旨在评估3D检测和分割模型在真实环境中面对各种自然破坏时的鲁棒性。研究考虑了恶劣天气条件、外部干扰和传感器故障等八种破坏类型。作者发现,尽管在标准测试中取得了良好结果,但现有的3D感知模型仍然容易受到破坏的影响。为了提高鲁棒性,他们提出了一种密度无关的训练框架和灵活的体素化策略。

:::

LayersNet

论文:《Towards Multi-Layered 3D Garments Animation》
链接arxiv.org/abs/2305.10…
源码www.mmlab-ntu.com/project/lay…
项目www.mmlab-ntu.com/project/lay…
简介: 本文提出了一种新颖的数据驱动方法,称为 LayersNet,将服装级动画建模为微观物理系统中的粒子交互。 通过将服装表示为两级结构层次中的补丁级粒子来提高模拟效率。此外,论文中引入了一种新颖的旋转等效变换,它利用物理系统的旋转不变性和可加性来更好地模拟外力。为了验证所提方法的有效性并弥合实验环境和现实场景之间的差距,作者引入了一个新的具有挑战性的数据集 D-LAYERS,其中包含由人体驱动的 4,900 种不同多层服装组合的 700K 动态帧 和随机采样的风。最后,实验表明 LayersNet 在数量和质量上都取得了优异的性能。

:::

SynBody

:::block-1

论文:《SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling》
链接arxiv.org/pdf/2303.17…
源码:coming sonn!
项目maoxie.github.io/SynBody/
简介: 合成数据作为3D人体研究的一种有希望的数据源,提供了低成本获取大规模人体数据集的途径。为了提高人体模型的多样性和注释质量,我们介绍了一个新的合成数据集Synbody,具有三个吸引人的特点:1)一个具有多样性的服装参数化人体模型,能够生成各种类型的人体;2)分层人体表示自然地提供高质量的3D注释,支持多个任务;3)可扩展的系统,用于生成逼真的数据,以促进实际任务的进行。该数据集包括170万张图像及其相应的精确3D注释,涵盖了1万个人体模型、1000个动作和各种视角。数据集包括两个子集,用于人体网格恢复和人体神经渲染。

:::

SparseNeRF

:::block-1

论文:《SparseNeRF: Distilling Depth Ranking for Few-shot Novel View Synthesis》
链接arxiv.org/abs/2303.16…
源码github.com/Wanggcong/S…
项目sparsenerf.github.io/
简介: 在进行少样本新视角合成时,Neural Radiance Field(NeRF)在只有有限视角时的表现会下降。为了解决这个问题,研究人员提出了SparseNeRF框架,利用真实世界不准确的深度观测来辅助 NeRF 的深度预测。他们使用来自预训练深度模型或消费级深度传感器的粗糙深度图,并通过一种简单而有效的约束方法,使NeRF的深度排序与粗糙深度图的排序保持一致。为了保持估计的深度的连续性,他们还提出了一个空间连续性约束。实验证明,SparseNeRF在标准数据集上优于其他少样本NeRF方法,并且在包含真实深度图的NVS-RGBD数据集上也表现出了优越性和通用性。

:::

SHERF

:::block-1

论文:《SHERF: Generalizable Human NeRF from a Single Image》
链接arxiv.org/abs/2303.12…
源码github.com/skhu101/SHE…
项目skhu101.github.io/SHERF/
简介: 现有的3D人体重建方法通常需要多个视角的图像或者从固定摄像机视角的视频。但在真实场景中,我们通常只有单张图像,这对高质量的3D人体重建构成了挑战。本研究提出了SHERF,这是一种从单张输入图像中恢复可动画的3D人体的方法。SHERF将3D人体表示提取和编码到规范空间中,使得可以从不同视角和姿势进行渲染和动画。为了实现高保真的新视角和姿势合成,编码的3D人体表示需要捕捉全局外观和局部纹理细节。为此,研究人员设计了一个包含全局特征、点级特征和像素对齐特征的3D感知分层特征库,并通过特征融合变换器进行有效整合。在多个数据集上的实验证明,SHERF表现出了先进的性能,在新视角和姿势合成方面具有更好的通用性。

:::

RangeFormer

:::block-1

论文:《Rethinking Range View Representation for LiDAR Segmentation》
链接arxiv.org/pdf/2303.05…
简介: 本研究发现了构建强大视角范围模型的几个关键因素。研究人员指出,"多对一"映射、语义不一致和形状变形是影响视角范围投影有效学习的障碍。因此,本文提出了RangeFormer框架,通过网络架构、数据增强和后处理等新设计来更好地处理LiDAR点云的学习和处理。此外,作者还提出了Scalable Training from Range view (STR)策略,该策略可以在低分辨率的2D视角图像上进行训练,同时仍保持令人满意的3D分割准确性。实验证明,该方法在LiDAR分割任务中超过了点云、体素和多视角融合等方法,在SemanticKITTI、nuScenes和ScribbleKITTI等基准数据集上取得了最佳性能。

:::

Tube-Link

:::block-1

论文:《Tube-Link: A Flexible Cross Tube Baseline for Universal Video Segmentation》
链接arxiv.org/pdf/2303.12…
源码github.com/lxtGH/Tube-…
简介: 视频分割的目标是在各种场景下准确地对每个像素进行分割和跟踪。本文介绍了Tube-Link,一个多功能框架,通过统一的架构解决了视频分割的多个核心任务。我们的框架是一种准在线方法,以短子剪辑作为输入,并输出相应的时空管道掩码。为了增强跨管道关系的建模,我们提出了一种通过查询进行管道级联的有效方法。此外,我们引入了时间对比学习,用于实例级别的区分性特征用于管道级别的关联。我们的方法对于短视频和长视频输入都具有灵活性和高效性,因为每个子剪辑的长度可以根据数据集或场景的需求进行变化。

:::

Betrayed-by-Captions

:::block-1

论文:《Betrayed-by-Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation》
链接arxiv.org/abs/2301.00…
源码github.com/jzwu4803355…
项目www.mmlab-ntu.com/project/bet…
简介: 本研究致力于开发一种实例级别的开放词汇分割方法,以扩展现有的分割器,无需使用遮罩注释即可处理新的类别。通过利用图像字幕中的物体名词,构建了一个简单而有效的框架,可以发现新类别的实例。该框架采用端到端的解决方案,包括字幕定位和字幕生成两个方面,避免了使用预训练字幕模型或复杂的处理流程。通过基于Mask Transformer基准模型的联合字幕定位和生成框架,实现了显式和隐式的多模态特征对齐,同时设计了轻量级的字幕生成模块,提供额外的字幕监督。实验证明,定位和生成相互补充,显著提升了新类别的分割性能。

:::

CLIP-LIT

:::block-1

论文:《Iterative Prompt Learning for Unsupervised Backlit Image Enhancement》
链接arxiv.org/pdf/2303.17…
源码github.com/ZhexinLiang…
项目zhexinliang.github.io/CLIP_LIT_pa…
简介: 本文提出了一种新颖的无监督逆光图像增强方法,称为CLIP-LIT,通过探索对比度语言-图像预训练(CLIP)在像素级图像增强中的潜力。我们展示了开放世界的CLIP先验不仅有助于区分逆光和光照良好的图像,还有助于感知具有不同亮度的异质区域,从而促进了增强网络的优化。

:::

Coming soon

  • 《UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human Generation》

  • 《StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation》

  • 《Scenimefy: Learning to Craft Anime Scene via Semi-Supervised Image-to-Image Translation》

  • 《DeformToon3D: Deformable 3D Toonification from Neural Radiance Fields》

  • 《DNA-Rendering : A Diverse Neural Actor Repository for High-Fidelity Human-centric Rendering》

  • 《MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions》

  • 《ProPainter: Improving Video Inpainting with Enhanced Propagation and Efficient Transformer》

  • 《Deep Geometrized Cartoon Line Inbetweening》

write at the end

If you also have good work that you want to share with more friends, please feel free to contact us, we will provide all the help we can! At the same time, if you have technical or academic communication needs, you are also welcome to scan the QR code at the bottom of the screen and add Xiaobian WeChat.

Guess you like

Origin juejin.im/post/7258508878387314745