论文阅读 | Lite Transformer with Long-Short Range Attention - 代码天地

论文阅读 | Lite Transformer with Long-Short Range Attention

其他 2020-05-28 13:24:53 阅读次数: 0

论文：Lite Transformer with Long-Short Range Attention by Wu, Liu et al.

[ code in github ]

LSRA特点：两组head，其中一组头部专注于局部上下文建模(通过卷积)，而另一组头部专注于长距离关系建模(通过注意)。

传统的self-attention被认为是有冗余的，经验表明，句子中的本地关系被过于关注了。这可以通过标准卷积更加有效的进行建模。同样的结论在On the Relationship between Self-Attention and Convolutional Layers也有，同时，这个精简可以在某些情况下帮助提升模型的能力，但它不适用于较轻量级的应用。

Long-Short Range Attention (LSRA)通过将输入沿通道维度分成两部分，并将这两个部分分别提供给两个模块，从而提高了计算效率：全局提取器使用标准的自注意力，局部提取器使用轻量级的深度卷积。作者给出了一个2.5×简化的模型的总体计算量，使它适合移动端的配置。在机器翻译、抽象摘要和语言建模任务上有提高。

配合剪枝和量化，模型大小压缩到达了18.2x。

从图上看对比还是非常明显的。

得到输入的embedding后，分为两个分支，一个是attention（在原始的transformer 上，通道维度减少了一半。另一个分支是卷积，通过滑动窗口，对角线组可以很容易地被模块覆盖。最后把两个分支的结果stack后交给FFN。

实验结果

论文用到的量化和剪枝方法分别参考：

1. 量化：

K-means (Han et al., 2016)，

Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding.

2. 剪枝：

sensitivity of each layer (Han et al., 2015a)，Learning both weights and connections for efficient neural network.

这两个方法的一作也是本文的作者之一。

猜你喜欢

转载自www.cnblogs.com/shona/p/12980079.html

论文阅读 | Lite Transformer with Long-Short Range Attention

LITE TRANSFORMER WITH LONG-SHORT RANGE ATTENTION

【论文阅读】Attention is all you need（Transformer）

机器学习笔记 - Transformer/Attention论文解读

Transformer 论文精读——Attention Is All You Need

【论文笔记】Attention和Visual Transformer

【读论文】SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer

【论文解读】Attention Is All You Need（Transformer and Self-Attention）

《Attention is All You Need》论文理解Transformer

论文笔记Transformer:Attention is all you need

【attention|Tensorformer】从attention走向Transformer

NRE论文总结：Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

[目标识别-论文笔记]Object Detection in Videos by Short and Long Range Object Linking

【论文笔记copy】Attention总结三：self-attention与transformer

最新 Visual Transformer 论文速览（Attention Free Transformer，CeiT，DynamicViT）

【自然语言处理 | Transformer】Transformer：Attention is All You Need论文讲解

Self-Attention与Transformer

Transformer中的Attention

Vision Transformer with Deformable Attention

Attention 和 Transformer

Self-attention & Transformer

论文阅读笔记 | 分类网络——Transformer in Transformer

Graph Attention Networks——《论文阅读》

【论文阅读】Rethinking Attention With Performers

transformer之前需要阅读的论文

论文阅读: Spatial transformer networks

论文阅读--视觉Transformer(ViT)

Graph Transformer系列论文阅读

ViT Transformer论文阅读笔记

Attention机制论文阅读——global attention和local attention

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)