论文笔记：ViTGAN: Training GANs with Vision Transformers - 代码天地

论文笔记：ViTGAN: Training GANs with Vision Transformers

移动开发 2023-09-30 18:04:38 阅读次数: 0

2021

1 intro

论文研究的问题是：ViT是否可以在不使用卷积或池化的情况下完成图像生成任务
- 即不用CNN，而使用ViT来完成图像生成任务
将ViT架构集成到GAN中，发现现有的GAN正则化方法与self-attention机制的交互很差，导致训练过程中严重的不稳定
- ——>引入了新的正则化技术来训练带有ViT的GAN
- ViTGAN模型远优于基于Transformer的GAN模型，在不使用卷积或池化的情况下，性能与基于CNN的GAN（如Style-GAN2）相当
- ViTGAN模型是首个在GAN中利用视觉Transformer的模型之一

2 方法

直接使用ViT作为鉴别器会使训练变得不稳定。
- 论文对生成器和鉴别器都引入了新的技术，用来稳定训练动态并促进收敛。
  - (1)ViT鉴别器的正则化；
  - (2)生成器的新架构

2.1 ViT鉴别器的正则化

利普希茨连续（Lipschitz continuity）在GAN鉴别器中很重要
- GAN笔记：利普希茨连续（Lipschitz continuity）_UQI-LIUWJ的博客-CSDN博客
然而，最近的一项工作表明，标准dot product self-attention层的Lipschitz常数可以是无界的，使Lipschitz连续在ViTs中被违反。
- —>1，用欧氏距离代替点积相似度
- —>2，在初始化时将每层的归一化权重矩阵与spectral norm相乘
  - 对于任意矩阵 A，其Spectral Norm定义为：
    - 也可以定义为矩阵 A 的最大奇异值
  - - σ计算矩阵的Spectral Norm

2.2 设计生成器

3 实验

猜你喜欢

转载自blog.csdn.net/qq_40206371/article/details/133267199

论文笔记：ViTGAN: Training GANs with Vision Transformers

Training Vision Transformers for Image Retrieval 论文笔记

Vision Transformers for Dense Prediction论文笔记

NeurIPS 2021: All Tokens Matter: Token Labeling for Training Better Vision Transformers论文精读与解析

Multiscale Vision Transformers 论文阅读

Multiscale Vision Transformers 论文详解

【论文笔记】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

BEiT: BERT Pre-Training of Image Transformers 论文笔记

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 论文笔记

【论文笔记】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

论文笔记：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

【论文笔记】BERT : Pre-training of Deep Bidirectional Transformers forLanguage Understanding

Conditional Positional Encodings for Vision Transformers（论文阅读笔记）

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet | 全面超越ResNet

LV-ViT：All Tokens Matter: Token Labeling for Training Better Vision Transformers

【论文笔记】BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and

【论文笔记】VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

论文阅读——《Wasserstein GAN》《Improved Training of Wasserstein GANs》

《Vision Transformers with Patch Diversification》

【论文及代码详解】BEIT: BERT Pre-Training of Image Transformers

Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet作者袁粒讲T2T-ViT

阅读文献1：Bootstrapping ViTs: Towards Liberating Vision Transformers from Pre-training（文章翻译及自身的理解和总结）

Improved Techniques for Training GANs(2016)

《Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning》—论文笔记

论文笔记：UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training

论文笔记：COOKIE: Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representati

论文笔记：Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Mo

Transformer 综述 & Transformers in Vision: A Survey

【自监督论文阅读笔记】Emerging Properties in Self-Supervised Vision Transformers

Transformer 系列 Interpret Vision Transformers as ConvNets with Dynamic Convolutions 论文阅读笔记

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)