弥合2D和3D生成之间的次元壁!X-Dreamer:高质量的文本到3D生成模型

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【视觉和Transformer】微信交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

579732d861d3301b78cf0419f855fd17.jpeg

本文系CVer粉丝投稿 | 转载自:机器之心 

本文介绍了一个名为 X-Dreamer 的框架,它主要由 CG-LoRA 和 AMA 损失两种关键创新组成,实现了弥合 text-to-2D 和 text-to-3D 间的领域差距,实现了高质量的 3D 生成。

近年来,在预训练的扩散模型 [1, 2, 3] 的开发推动下,自动 text-to-3D 内容创建取得了重大进展。其中,DreamFusion [4] 引入了一种有效的方法,该方法利用预训练的 2D 扩散模型 [5] 从文本中自动生成 3D 资产,从而无需专门的 3D 资产数据集。

DreamFusion 引入的一项关键创新是分数蒸馏采样 (SDS) 算法。该算法利用预训练的 2D 扩散模型对单个 3D 表示进行评估,例如 NeRF [6],从而对其进行优化,以确保来自任何摄像机视角的渲染图像与给定文本保持较高的一致性。受开创性 SDS 算法的启发,出现了几项工作 [7,8,9,10,11],通过应用预训练的 2D 扩散模型来推进 text-to-3D 生成任务。

虽然 text-to-3D 的生成通过利用预训练的 text-to-2D 的扩散模型已经取得了重大进展,但是 2D 图像和 3D 资产之间仍存在很大的领域差距。这种区别在图 1 中清楚地展示出来。

首先,text-to-2D 模型产生与相机无关的生成结果,专注于从特定角度生成高质量图像,而忽略其他角度。相比之下,3D 内容创建与相机参数 (如位置、拍摄角度和视场) 错综复杂地联系在一起。因此,text-to-3D 模型必须在所有可能的相机参数上生成高质量的结果。

此外,text-to-2D 生成模型必须同时生成前景和背景元素,同时保持图像的整体连贯性。相反,text-to-3D 生成模型只需要集中在创建前景对象上。这种区别允许 text-to-3D 模型分配更多的资源和注意力来精确地表示和生成前景对象。因此,当直接采用预训练的 2D 扩散模型进行 3D 资产创建时,text-to-2D 和 text-to-3D 生成之间的域差距构成了显著的性能障碍。

fda889863af29a3ea48778791ce95593.png

图 1 text-to-2D 生成模型 (左) 和 text-to-3D 生成模型 (右) 在同一文本提示下的输出,即 "A statue of Leonardo DiCaprio's head.”。

为了解决这个问题,论文提出了 X-Dreamer,这是一种用于高质量 text-to-3D 内容创建的新颖方法,可以有效地弥合 text-to-2D 和 text-to-3D 生成之间的领域差距。

X-Dreamer 的关键组成部分是两种创新设计: Camera-Guided Low-Rank Adaptation (CG-LoRA) 和 Attention-Mask Alignment (AMA) 损失。

首先,现有方法 [7,8,9,10] 通常采用 2D 预训练扩散模型 [5,12] 来进行 text-to-3D 生成,缺乏与相机参数的固有联系。为了解决此限制并确保 X-Dreamer 产生直接受相机参数影响的结果,论文引入了 CG-LoRA 来调整预训练的 2D 扩散模型。值得注意的是,在每次迭代期间 CG-LoRA 的参数都是基于相机信息动态生成的,从而在 text-to-3D 模型和相机参数之间建立鲁棒的关系。

其次,预训练的 text-to-2D 扩散模型将注意力分配给前景和背景生成,而 3D 资产的创建需要更加关注前景对象的准确生成。为了解决这一问题,论文提出了 AMA 损失,使用 3D 对象的二进制掩码来指导预训练的扩散模型的注意力图,从而优先考虑前景对象的创建。通过合并该模块,X-Dreamer 优先考虑前景对象的生成,从而显着提高了生成的 3D 内容的整体质量。

ca2187b8e784fa5da513b45082bede4e.png

项目主页:

https://xmu-xiaoma666.github.io/Projects/X-Dreamer/

Github主页:https://github.com/xmu-xiaoma666/X-Dreamer

论文地址:https://arxiv.org/abs/2312.00085

X-Dreamer 对 text-to-3D 生成领域做出了如下贡献:

  • 论文提出了一种新颖的方法,X-Dreamer,用于高质量的 text-to-3D 内容创建,有效地弥合了 text-to-2D 和 text-to-3D 生成之间的主要差距。

  • 为了增强生成的结果与相机视角之间的对齐,论文提出了 CG-LoRA,利用相机信息来动态生成 2D 扩散模型的特定参数。

  • 为了在 text-to-3D 模型中优先创建前景对象,论文引入了 AMA 损失,利用前景 3D 对象的二进制掩码来引导 2D 扩散模型的注意图。

方法

X-Dreamer 包括两个主要阶段:几何学习和外观学习。对于几何学习,论文采用 DMTET 作为 3D 表示,并利用 3D 椭球对其进行初始化,初始化时的损失函数采用均方误差 (MSE) 损失。随后,论文使用分数蒸馏采样 (SDS) 损失和论文提出的 AMA 损失来优化 DMTET 和 CG-LoRA,以确保 3D 表示和输入文本提示之间的对齐。

对于外观学习,论文利用双向反射分布函数 (BRDF) 建模。具体来说,论文利用具有可训练参数的 MLP 来预测表面材料。类似于几何学习阶段,论文使用 SDS 损失和 AMA 损失来优化 MLP 和 CG-LoRA 的可训练参数,以实现 3D 表示和文本提示之间的对齐。图 2 展示了 X-Dreamer 的详细构成。

8bd906d95e0dd0bef5a3125a6f1f7cf1.png

图 2 X-Dreamer 概览,包括几何学习和外观学习。

几何学习 (Geometry Learning)

在此模块中,X-Dreamer 利用 MLP 网络b09b8cbb93571698504ae51ac15a8cdc.png将 DMTET 参数化为 3D 表示。为了增强几何建模的稳定性,本文使用 3D 椭球体作为 DMTET 365d2791e6721e5f66204d418ed3ef6b.png 的初始配置。对于属于四面体网格b5b33df4b2b8231040bcb02d65d89244.jpeg的每个顶点4ff8f55a47897b0b96b116176e99fdb8.jpeg,本文训练19387c1a152418b3d654ad5a937fe29c.png来预测两个重要的量:SDF 值2ec264d1622e9e23ed22b19bee23ab26.jpeg和变形偏移量3787f1fb51f2d9b8680d466d428aac46.jpeg。为了将f79ac4d927342a3c0c081e8363759e93.png初始化为椭球体,本文采样了均匀分布在椭球体内的 N 个点,并计算相应的 SDF 值8da99e06fa0663a91b7ebb91d8e4f427.jpeg。随后,利用均方误差(MSE)损失来优化30cbf832b02c0141f992ff3e767a0390.png。该优化过程确保b5cbe27fef82166a9a25a0da1e23a7c1.png有效地初始化 DMTET,使其类似于 3D 椭球体。MSE 损失的公式如下:

59d3a58275c64fd29742ac30f8b6ca27.jpeg

初始化几何图形后,将 DMTET 的几何图形与输入文本提示对齐。具体的操作方法是通过使用差分渲染技术,在给定随机采样的相机姿势 c 的情况下,从初始化的 DMTET7d1798496de3a7b7507029abe9894104.png生成法线映射 n 和对象的掩码 m 。随后,将法线映射 n 输入到具有可训练 CG-LoRA 嵌入的冻结的 Stable Diffusion 模型(SD)中,并使用 SDS 损失更新e9ee664b4cf084e81ae1013e5d4d2cd4.png中的参数,定义如下:

2d05c8b2ba28c501687c2fa1fcd96936.jpeg

其中,b66335191e957b88410519b0d23224a3.jpeg表示 SD 的参数,6711a393fa58f94cc3b2b9f1cfd5c74f.jpeg为在给定噪声水平 t 和文本嵌入 y 的情况下的 SD 的预测噪声。此外,738a1da616b77dc6131f7d03ca8c8cf8.jpeg,其中dd5c74c5b73802bc17af8afad0915f22.jpeg表示从正态分布采样的噪声。008d57640b92450a53636bd798ab6863.jpeg33e65f8010ede4e33add9bec1c75172f.jpeg7f747c958cd3bd83b8cfb66f7c862ca4.jpeg的实现基于 DreamFusion [4]。

此外,为了将 SD 集中于生成前景对象,X-Dreamer 引入了额外的 AMA 损失,以将对象掩码  与 SD 的注意力图对齐,如下所示:

797baf947dc564cd24c970acbfb44e31.jpeg

其中459f630bde40b767cf1d9998edd18ddf.jpeg表示注意力层的数量,4dfa168a6351a3852b387f98ed497f30.jpeg是第 i 个注意力层的注意力图。函数2e049f3accdef70ed2f95f481e4e9b01.jpeg用于调整渲染出来的 3D 对象掩码的大小,确保它的尺寸与注意力图的尺寸对齐。

外观学习 (Appearance Learning)

在获得 3D 对象的几何结构后,本文的目标是使用基于物理的渲染(PBR)材料模型来计算 3D 对象的外观。材料模型包括扩散项229b24b77ed53c627119eaa61742137e.jpeg,粗糙度和金属项42ab3fa99b1613861f1ec1474d4432da.jpeg,以及法线变化项51b54b1d850cfca5a5600a1ac0637ca5.jpeg。对于几何体表面上的任一点d242a7b54560646dc58bb7ee35ee1280.jpeg

,利用由7fcb961213d58c6ee25bbe434a82f3d3.png参数化的多层感知机(MLP)来获得三个材料项,具体可以表示如下:

ecb808ae2c7915681cae15deccb1f251.jpeg

其中,f51941f8ecacbf7d982b48dccb9a1757.jpeg表示利用哈希网格技术进行位置编码。之后,可以使用如下公式计算渲染图像的每个像素:

e1883e585715ff25fc16ccbebe85f4f6.jpeg

其中,81904fd761ac47027111b9c498325c3f.jpeg表示从方向102ac2f7317cbbfb7bf2d7691c35194b.jpeg渲染 3D 物体表面的点350713943c26ef86dd17be98ac79cc53.jpeg的像素值。b7cc0a4e1758895e5126b428bd3dcce5.jpeg表示由满足条件252496d5d6c7191c52dc0da7e64451e4.jpeg的入射方向集合410389cc3e67b50a5ad1a9e1664638b9.jpeg定义的半球,其中583fb7037601555e935712a8a41e458a.jpeg表示入射方向,dc0c2f6e46368b2b06f9a2164e75905c.jpeg表示点9a10f4c0fb461f3231f9af6a80956b27.jpeg处的表面法线。0a5fd832de6e952725d1334c075974f6.jpeg对应于来自现成环境图的入射光,55699a91626ff6953ca689b39993f75c.jpeg是与材料特性(即2e354dd3ec7c73ff26c32211c8d339e2.jpeg)相关的双向反射分布函数 (BRDF)。通过聚合所有渲染的像素颜色,可以获得渲染图像d66613f82a02d60a7c58ccc48cab5c14.jpeg。与几何学习阶段类似,将渲染图像a279155e27914ef38709eae446efe8a8.jpeg输入 SD,利用 SDS 损失和 AMA 损失优化e521406e7d1c072537f68a5626ddfafb.png

Camera-Guided Low-Rank Adaptation (CG-LoRA)

为了解决 text-to-2D 和 text-to-3D 的生成任务之间存在的领域差距而导致的次优的 3D 结果的生成,X-Dreamer 提出了 Camera-Guided Low-Rank Adaptation。

如图 3 所示,利用摄像机参数和方向感知文本来指导 CG-LoRA 中参数的生成,使 X-Dreamer 能够有效地感知摄像机的位置和方向信息。

4a71e4e649e5fc84eefb9852c1e20853.png

图 3 摄像机引导的 CG-LoRA 示意。

具体的,给定文本提示8b82c2877c026e8e8df1866ca52e5c58.jpeg和相机参数e547805e2898ae3244f9ef11ec97599c.jpeg,首先使用预训练的文本 CLIP 编码器4ea1f90169c6b44f60e13f73d33b96b4.jpeg和可训练的 MLPd3140546e644c39368bd6d776e972279.jpeg,将这些输入投影到特征空间中:

e5bff14983fde7b3a4c79d7c8125e208.jpeg

其中,67d20a3dc6ea9632422c1ab9f76ef16f.jpegd3a120a67930f152e17fd42c800b7b45.jpeg分别是是文本特征和相机特征。之后,使用两个低秩矩阵将1c0e34c6501cec380b2b6ad7f5a4c3de.jpeg1e0b4e7dbdbe3ee7e71bc72ee8e37720.jpeg投影到 CG-LoRA 中的可训练降维矩阵中:

80d3074842c01d28388df33182ce17c5.jpeg

其中,df546ed45d904b3ccd1e233352829f8d.jpeg1c4903fb95c8b6485cc7602eb5026f47.jpeg是 CG-LoRA 的两个降维矩阵。函数cba5b403eb7991f49e8f06dc1d137d3b.jpeg

用于将张量的形状从变换61d749b365e38a000bf21d270c840ea4.jpeg0c24004d867b1bb1b807f260320eda74.jpeg2829ba1b758f0e7532b170600a450e83.jpeg

2c681806be3bc0bf9e0ab222dc8c2761.jpegcf9192a3734c3a57d344fba1634185cb.jpeg是两个低秩矩阵。因此,可以将它们分解为两个矩阵的乘积,以减少实现中的可训练参数,即ae412ad728af65f00a6e1a45628d8319.jpegcb36e9637206c1804ba19ffdef134ce4.jpeg,其中1075474ab66aff8b08005d8f0b2e3ae6.jpegd9e95b4ba0e4ebbeb7a418575acfa7c7.jpeg121c44ca12e72cb9f558262e4f257a83.jpeg39ddbd72375e42e76db4efda96393782.jpeg,6b6008c0b42faf5b2b0df93c76d0867c.jpeg是一个很小的数字(如:4)。根据 LoRA 的构成,将维度扩展矩阵d94d5242a8266cdb8bef1cf68e71755a.jpeg初始化为零,以确保模型开始使用 SD 的预训练参数进行训练。因此,CG-LoRA 的前馈过程公式如下:

4e3112c2d437d891b2cccd1920612227.jpeg

其中, 4cd0ceec7a4e474cff436906a9fe11e8.jpeg表示预训练的 SD 模型的冻结参数,5a0bc912791acbe689bcbdd5a8bb2872.jpeg是级联运算。在本方法的实现中,将 CG-LoRA 集成到 SD 中注意力模块的线性嵌入层中,以有效地捕捉方向和相机信息。

Attention-Mask Alignment Loss (AMA Loss)

SD 被预训练以生成 2D 图像,同时考虑了前景和背景元素。然而,text-to-3D 的生成需要更加重视前景对象的生成。鉴于这一要求,X-Dreamer 提出了 Attention-Mask Alignment Loss(AMA 损失),以将 SD 的注意力图与 3D 对象的渲染的掩码图像对齐。具体的,对于预训练的 SD 中的每个注意力层,本方法使用查询图像特征0eab2bdf3a375ec8275345ab2fffec40.jpeg和关键 CLS 标记特征3f2d187625201cd0e00279ee737eabdc.jpeg来计算注意力图。计算公式如下:

32024a4945f06e369b9b649a106ac918.jpeg

其中,31f77d7abfc4c3731a0806ce95b1a0b3.jpeg 表示多头注意力机制中的头的数量,4dee0675434c33492ecaf3ae7f886272.jpeg表示注意力图,之后,通过对所有注意力头中注意力图4239dda8e29e525d43549e06cb2307a6.jpeg的注意力值进行平均来计算整体注意力图81100ef1af3b37fab8abfab7bea516d2.jpeg的值。

由于使用 softmax 函数对注意力图值进行归一化,因此当图像特征分辨率较高时,注意力图中的激活值可能变得非常小。但是,考虑到渲染的 3D 对象掩码中的每个元素都是 0 或 1 的二进制值,因此将注意力图与渲染的 3D 对象的掩码直接对齐不是最佳的。为了解决这个问题,论文提出了一种归一化技术,该技术将注意力图中的值映射到(0,1)之间。此归一化过程的公式如下:

e3ed1a66df08f7db021d0141d54e9a9b.jpeg

其中,2a49868700df444632e9714704868154.jpeg代表一个小的常数值 (例如67c9a9d6ed8e167538e073b0bc1f73c1.jpeg),来防止分母中出现 0。最后,使用 AMA 损失将所有注意力层的注意力图与 3D 对象的渲染的掩码对齐。

实验结果

论文使用四个 Nvidia RTX 3090 GPU 和 PyTorch 库进行实验。为了计算 SDS 损失,利用了通过 Hugging Face Diffusers 实现的 Stable Diffusion 模型。对于 DMTET 和 material 编码器,将它们分别实现为两层 MLP 和单层 MLP,隐藏层维度为 32。

从椭球体开始进行 text-to-3D 的生成

论文展示了 X-Dreamer 利用椭球作为初始几何形状的 text-to-3D 的生成结果,如图 4 所示。结果证明 X-Dreamer 具有生成高质量和照片般逼真的 3D 对象的能力,生成的 3D 对象与输入的文本提示准确对应。

8adc1e64c82352f964476e505f1e2237.png

图 4 从椭球体开始进行 text-to-3D 的生成。

从粗粒度网格开始进行 text-to-3D 的生成

虽然可以从互联网上下载大量粗粒度网格,但由于缺乏几何细节,直接使用这些网格创建 3D 内容往往会导致性能较差。然而,与 3D 椭球体相比,这些网格可以为 X-Dreamer 提供更好的 3D 形状先验信息。

因此,也可以使用粗粒度引导网格来初始化 DMTET,而不是使用椭球。如图 5 所示,X-Dreamer 可以基于给定的文本生成具有精确几何细节的 3D 资产,即使所提供的粗粒度网格缺乏细节。

3c46ef09dc16647214ffc45d23399634.png

图 5 从粗粒度网格开始进行 text-to-3D 的生成。

定性比较

为了评估 X-Dreamer 的有效性,论文将其与四种 SOTA 方法进行比较: DreamFusion [4],Magic3D [8],Fantasia3D [7] 和 ProlificDreamer [11],如图 6 所示。

当与基于 SDS 的方法进行比较时 [4,7,8],X-Dreamer 在生成高质量和逼真的 3D 资产方面优于他们。此外,与基于 VSD 的方法 [11] 相比,X-Dreamer 产生的 3D 内容具有相当甚至更好的视觉效果,同时需要的优化时间明显减少。具体来说,X-Dreamer 的几何形状和外观学习过程只需要大约 27 分钟,而 ProlificDreamer 则超过 8 小时。

45569542db4645797dd8e15722280caf.png

图 6 与现有技术 (SOTA) 方法的比较。

消融实验

  • 模块消融

为了深入了解 CG-LoRA 和 AMA 损失的能力,论文进行了消融研究,其中每个模块单独加入以评估其影响。如图 7 所示,消融结果表明,当 CG-LoRA 被排除在 X-Dreamer 之外时,生成的 3D 对象的几何形状和外观质量显著下降。

此外,X-Dreamer 缺失 AMA 损失也对生成的 3D 资产的几何形状和外观保真度产生有害影响。这些消融实验为 CG-LoRA 和 AMA 损失在增强生成的 3D 对象的几何形状、外观和整体质量方面的单独贡献提供了有价值的研究。

fbe341bcdee6951e46ebeec5623405ab.png

图 7 X-Dreamer 的消融研究。

  • 有无 AMA 损失的注意力图比较

引入 AMA 损失的目的是将去噪过程中的注意力引导到前景对象。这个是通过将 SD 的注意力图与 3D 对象的渲染掩码对齐来实现的。为了评估 AMA 损失在实现这一目标方面的有效性,论文在几何学习和外观学习阶段可视化了有和没有 AMA 损失的 SD 的注意力图。

如图 8 所示,可以观察到,加入 AMA 损失不仅会改善生成的 3D 资产的几何形状和外观,而且会将 SD 的注意力特别集中在前景对象区域上。可视化证实了 AMA 损失在引导 SD 注意力方面的有效性,从而在几何和外观学习阶段提高了质量和前景对象的聚焦。

5ff3f004078d02e6850ed5026076db33.png

图 8 注意力图、渲染掩码和渲染图像的可视化,包括和不包括 AMA 损失。

这项研究引入了一个名为 X-Dreamer 的开创性框架,该框架旨在通过解决 text-to-2D 和 text-to-3D 生成之间的领域差距来增强 text-to-3D 的生成。为了实现这一点,论文首先提出了 CG-LoRA,这是一个将 3D 相关信息(包括方向感知文本和相机参数)合并到预训练的 Stable Diffusion(SD)模型中的模块。通过这样做,本文能够有效地捕获与 3D 领域相关的信息。此外,本文设计了 AMA 损失,以将 SD 生成的注意力图与 3D 对象的渲染掩码对齐。AMA 损失的主要目标是引导 text-to-3D 模型的焦点朝着前景对象的生成方向发展。通过广泛的实验,本文彻底评估了提出方法的有效性,证明了 X-Dreamer 能够根据给定的文本提示生成高质量和真实的 3D 内容。

参考文献

[1] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33:6840–6851, 2020.

[2] Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, pages 2256–2265. PMLR, 2015.

[3] Yang Song, Jascha Sohl-Dickstein, Diederik P Kingma, Abhishek Kumar, Stefano Ermon, and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv preprint arXiv:2011.13456, 2020.

[4] Ben Poole, Ajay Jain, Jonathan T Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion. arXiv preprint arXiv:2209.14988, 2022.

[5] Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35:36479–36494, 2022.

[6] Ben Mildenhall, Pratul P Srinivasan, Matthew Tancik, Jonathan T Barron, Ravi Ramamoorthi, and Ren Ng. Nerf: Representing scenes as neural radiance fields for view synthesis. Communications of the ACM, 65 (1):99–106, 2021.

[7] Rui Chen, Yongwei Chen, Ningxin Jiao, and Kui Jia. Fantasia3d: Disentangling geometry and appearance for high-quality text-to-3d content creation. arXiv preprint arXiv:2303.13873, 2023.

[8] Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, and Tsung-Yi Lin. Magic3d: High-resolution text-to-3d content creation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 300–309, 2023.

[9] Gal Metzer, Elad Richardson, Or Patashnik, Raja Giryes, and Daniel Cohen-Or. Latent-nerf for shape-guided generation of 3d shapes and textures. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12663–12673, 2023.

[10] Haochen Wang, Xiaodan Du, Jiahao Li, Raymond A Yeh, and Greg Shakhnarovich. Score jacobian chaining: Lifting pretrained 2d diffusion models for 3d generation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12619–12629, 2023.

[11] Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, and Jun Zhu. Prolificdreamer: High-fidelity and diverse text-to-3d generation with variational score distillation. arXiv preprint arXiv:2305.16213, 2023.

[12] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10684–10695, 2022.

c175457d6f44a0974875c931b9b68e9f.jpeg

CVPR / ICCV 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
AIGC 交流群成立
扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-AIGC 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如AIGC +上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
  
▲扫码或加微信号: CVer444,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
  
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看c1b302ffc94101e308ec711dea18ad3a.gif

Guess you like

Origin blog.csdn.net/amusi1994/article/details/134985797