Reformer: The Efficient Transformer - 代码天地

Reformer: The Efficient Transformer

其他 2020-02-07 23:50:46 阅读次数: 0

一、背景介绍

　　Transformer结构被广泛应用与自然语言处理中，并且在许多任务上都产生了当前最好的效果。为了达到进一步的效果，研究人员已经开始训练更大的Transformer模型。在某些报告的最大配置中，每层参数的数量超过了5亿(0.5B)，而层的数量增加到了64层。Transformer模型也用于越来越长的序列中，在一个单独处理的样本中，序列的长度能达到11k，也就是包含11000个tokens每个序列，甚至还有更长的序列存在。这种大规模的长序列模型，虽然产生了较好的效果，但由于资源的限制，使得这一趋势正在打破NLP的研究发展。许多大型Transformer模型只能在大型工业研究实验室中进行实际训练，而这些并行训练的模型甚至不能在单个GPU上进行微调，因为它每训练一步，都需要多个加速器的硬件资源。

　　这些大规模的Transformer模型真的需要这么多资源，还是因为不高效导致的呢？参考一下下面的i计算：单层的参数在5亿个，需要内存约2GB；每一层的激活结果，为64K tokens， embedding size是1024，batch size是8，共计64k *1k *8=5亿个floats，又需要2GB的内存。如果只是这种单层的内存需求，我们使用单个加速器就很容易满足一个甚至长到64k的序列上。但是在多层上，内存的消耗就是惊人的:

二、局部敏感哈希Attention

三、可逆Transformer

四、实验分析

五、总结

猜你喜欢

转载自www.cnblogs.com/gczr/p/12275065.html

Reformer: The Efficient Transformer

Reformer: 高效的Transformer

Transformer家族3 -- 计算效率优化（Adaptive-Span、Reformer、Lite-Transformer）

【文本分类】ACT: an Attentive Convolutional Transformer for Efficient Text Classification

CVPR 2023 | EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

Restormer Efficient Transformer for High-Resolution Image Restoration

An Efficient Transformer for Simultaneous Learning of BEV and Lane Representations ...——论文笔记

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

【CVPR 2023】EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention

Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting翻译

业界前沿技术：从零开始学视觉Transformer-Data-Efficient Image Transformers

源码阅读及理论详解《 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 》

Restormer Efficient Transformer for High-Resolution Image Restoration论文代码运行记录

Transformer

The Transformer

【transformer】

Krotos 声音设计软件 Reformer Pro 优惠促销 40% off !

Be more efficient

The Annotated Transformer(解读Transformer)

学习Transformer（The Illustrated Transformer）

图解transformer | The Illustrated Transformer

Transformer变种—Swin Transformer

Transformer导论之Transformer

lightoj-1134-Be Efficient

Unity more efficient find

DSConv：Efficient convolution operator

Efficient Deep Neural Networks

Efficient serialization in C tpl

pointConv /Efficient PointConv

Efficient DETR 论文精读

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)