AMiner推荐论文：Hierarchical Transformers Are More Efficient Language Models - 代码天地

AMiner推荐论文：Hierarchical Transformers Are More Efficient Language Models

其他 2021-12-13 17:16:51 阅读次数: 0

论文链接： https://www.aminer.cn/pub/6178c43c5244ab9dcbb2b868?f=cs
谷歌、OpenAI和华沙大学的一个团队提出了一种新的用于语言建模的高效Transformer架构Hourglass，在ImageNet32上达到新的SOTA，证明拥有一个明确的分层结构是Transformer能有效处理长序列的关键。Hourglass在给定相同计算量和存储量的情况下，可以产生比Transformer更好的结果。>>加入极市CV技术交流群，走在计算机视觉的最前沿Transformer模型在很多不同的领域都取得了SOTA，包括自然语言，对话，图像，甚至音乐。每个Transformer体系结构的核心模块是注意力模块，它为一个输入序列中的所有位置对计算相似度score。
然而，Transformer在输入序列的长度较长时效果不佳，因为它需要计算时间呈平方增长来产生所有相似性得分，以及存储空间的平方增长来构造一个矩阵存储这些score，因此将它们扩展到长序列(如长文档或高分辨率图像)是非常费时费内存的。
对于需要长距离注意力的应用，目前已经提出了几种快速且更节省空间的方法，如常见的稀疏注意力。
稀疏注意力机制通过从一个序列而不是所有可能的Pair中计算经过选择的相似性得分来减少注意机制的计算时间和内存需求，从而产生一个稀疏矩阵而不是一个完整的矩阵。
这些稀疏条目可以通过优化的方法找到、学习，甚至随机化，如Performer、Sparse Transformers、Longformers、RoutingTransformers、Reformers和BigBird。
虽然，稀疏注意力引入了许多技术来修改注意机制，但是，整体Transformer的架构并没有改变。这些稀疏注意机制降低了自我注意的复杂性，但仍然迫使模型要处理与输入相同长度的序列。
为了缓解这些问题，来自谷歌、OpenAI和华沙大学的团队提出了一种新的用于语言建模的高效Transformer架构，称之为Hourglass。
AMiner,让AI帮你理解科学！https://www.aminer.cn
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/AI_Conf/article/details/121338361

AMiner推荐论文：Hierarchical Transformers Are More Efficient Language Models

LLaMA Open and Efficient Foundation Language Models

LLaMA: Open and Efficient Foundation Language Models

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-into Attention论文解读

【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models

LONGQLORA: EFFICIENT AND EFFECTIVE METHOD TO EXTEND CONTEXT LENGTH OF LARGE LANGUAGE MODELS

一个开源的大型语言模型LLaMA论文简单解读，LLaMA: Open and Efficient Foundation Language Models

Be more efficient

论文阅读：SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers

论文阅读：SegFormer: Simple and Efficient Design for SemanticSegmentation with Transformers

LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

Language Models are Unsupervised Multitask Learners 论文纪要

论文分享丨Holistic Evaluation of Language Models

【论文精读】Emergent Abilities of Large Language Models

论文阅读 A Survey of Large Language Models 3

论文阅读 A Survey of Large Language Models 2

论文阅读 A Survey of Large Language Models 1

【论文阅读】Scaling Laws for Neural Language Models

论文解读：Large Language Models as Analogical Reasoners

Learning efficient object detection models with knowledge distillation论文笔记

AMiner推荐论文：Interpretable and Efficient Heterogeneous Graph Convolutional Network

AMiner推荐论文：Energy-efficient memcapacitor devices for neuromorphic computing

Unity more efficient find

【NLP】Conditional Language Models

The rise of language models

GPT2.0 Language Models are Unsupervised Multitask Learners 论文解读

论文阅读 | Pre-trained Models for Natural Language Processing: A Survey

论文阅读：chain of thought Prompting elicits reasoning in large language models

【NLP经典论文精读】Language Models are Unsupervised Multitask Learners

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)