U-ViT【All are Worth Words: A ViT Backbone for Diffusion Models】 - 代码天地

U-ViT【All are Worth Words: A ViT Backbone for Diffusion Models】

企业开发 2024-01-08 20:08:53 阅读次数: 0

Motivation

Diffusion中常用的Backbone是UNet，使用 resnet 和 transformer 交替进行的，这样内存memory存储其实也是不断shuffle变化的，resnet 以 feature 看 memory，而 transformer 以 token 看memory。如果可以统一memory的计算架构，那么memory的view就会好看很多。

用ViT结构代替UNet结构来做扩散模型

U-ViT的一篇同期工作 DiT: Scalable Diffusion Models with Transformers 也提出了使用ViT代替U-Net的思想，不同的是DiT中没有引入long skip connection也依然取得了杰出的效果，且DIT用ViT做 class-label 的 conditional image generation，U-ViT则进一步完成了ViT的 class-label、text、image等任意 的 conditional image generation。

Method

如下图所示，U-ViT 延续了 ViT 的方法，将带噪图片划分为多个patch之后，将时间t，条件c，图像patch，视作token输入到Transformer block，同时加上position encoding，同时在网络浅层和深层之间引入long skip connection。经过 5 层 transformer block，得到输出的token，经过Linear Layer将token变为patch，最后经过3x3的Conv得到最终的pred_noise image。

在这里插入图片描述

Ablation Study

在这里插入图片描述

可以看出，long skip connection对于图像生成的FID分数是至关重要的。

在这里插入图片描述

总结

U-ViT是一种简单且通用的基于ViT的扩散概率模型的主干网络，U-ViT把所有输入，包括图片、时间、条件都当作token输入，并且引入了long skip connection。U-ViT在无条件生成、类别条件生成以及文到图生成上均取得了可比或者优于CNN的结果。

猜你喜欢

转载自blog.csdn.net/weixin_54338498/article/details/135453124

U-ViT【All are Worth Words: A ViT Backbone for Diffusion Models】

All are Worth Words : A ViT Backbone for Diffusion Models

U-ViT：A ViT Backbone for Diffusion Models

AN IMAGE IS WORTH 16X16 WORDS :TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE（VIT）

论文解读：ViT | AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

李沐精读论文：ViT 《An Image Is Worth 16x16 Words: Transformers For Image Recognition At Scale》

【笔记记录】ViT：AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

EfficientFormer：轻量化ViT Backbone

U-ViT（CVPR2023）——ViT与Difussion Model的结合

ViT

ViT/vit/VIT详解

【Backbone】TransNeXt:最新ViT模型（原理+常用神经网络汇总）

ViT~6

Transformer【ViT】

Latent Diffusion Models / Stable Diffusion

扩散模型Diffusion Models

On Distillation of Guided Diffusion Models

A Time Series is Worth 64 Words（PatchTST模型）论文解读

A Time Series is Worth 64 Words（PatchTST模型）代码解析

Stable Diffusion背后原理(Latent Diffusion Models)

Part 3: More about Backbone Models

Part 2: Understanding the basics of Backbone Models

TextDiffuser: Diffusion Models as Text Painters

DDPM: Denoising Diffusion Probabilistic Models

【DDPM】Denoising Diffusion Probabilistic Models

DDIM: DENOISING DIFFUSION IMPLICIT MODELS

Denoising Diffusion Probabilistic Models简介

VisionTransformer[VIT]，DETR

Vision Transformer（ViT）

【实验】vit代码

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)