スタンフォードNLPコース|講義14-トランスフォーマーの自己注意と生成モデル

ShowMeAIリサーチセンター


トランスフォーマーの自己注意と生成モデル

ShowMeAIは、スタンフォードCS224n「自然言語処理とディープラーニング(ディープラーニングによる自然言語処理)」コースのすべてのコースウェアに対して中国語の翻訳と注釈を付け、GIFアニメーションを作成しました。ビデオやコースウェアなどの資料の入手方法については、記事の最後を参照してください。


前書き

自己注意と生成モデル

可変長データの表現の学習

可変長データの表現の学習

  • シーケンス学習の重要なコンポーネントである可変長データの表現の学習
  • シーケンス学習には、NMT、テキスト要約、QA、...が含まれます。

1.リカレントニューラルネットワーク(RNN)

リカレントニューラルネットワーク(RNN)

  • 多くの場合、RNNは可変長表現を学習するために使用されます
  • RNNは、センテンスとピクセルシーケンスにネイティブに適しています
  • LSTM、GRU、およびそれらのバリアントが再発モデルを支配します

リカレントニューラルネットワーク(RNN)

リカレントニューラルネットワーク(RNN)

  • しかし、順次計算は並列化を阻害します
  • 長期および短期の依存関係の明示的なモデリングはありません
  • 階層をモデル化したい
  • RNN(順次整列された状態)は無駄に見えます!

2.畳み込みニューラルネットワーク(CNN)

畳み込みニューラルネットワーク(CNN)

畳み込みニューラルネットワーク(CNN)

  • 並列化(レイヤーごと)は簡単です
  • ローカル依存関係を使用する
  • 異なる場所の相互作用距離は線形または対数です
  • リモート依存関係には複数のレイヤーが必要です

3.注意

注意

  • NMT 中,编码器和解码器之间的 Attention 是至关重要的
  • 为什么不把注意力用于表示呢?

3.1 自注意力

自己注意

  • 自注意力机制

4.文本生成

テキスト生成

4.1 自注意力

自己注意

  • 任何两个位置之间的路径长度都是常数级别的
  • 门控 / 乘法 的交互
  • 可以并行化(每层)
  • 可以完全替代序列计算吗?

4.2 既有成果

前の作業既存の結果

  • Classification & regression with self-attention:
    • Parikh et al.(2016), Lin et al. (2016)
  • Self-attention with RNNs:
    • Long et al.(2016), Shao, Gows et al.(2017)
  • Recurrent attention:
    • Sukhbaatar et al.(2015)

4.3 Transformer

トランスフォーマー

  • Transformer结构

4.4 编码器与解码器的自注意力

エンコーダーとデコーダーの自己注意

  • 编码器的自注意力
  • 解码器的自注意力

4.5 Attention is Cheap!

注意が安い!

  • 由于计算只涉及到两个矩阵乘法,所以是序列长度的平方
  • 当维度比长度大得多的时候,非常有效

4.6 注意力:加权平均

注意:加重平均

4.7 自注意力

自己注意

  • 上例中,我们想要知道谁对谁做了什么,通过卷积中的多个卷积核的不同的线性操作,我们可以分别获取到 who, did what, to whom 的信息。
  • 但是对于 Attention 而言,如果只有一个Attention layer,那么对于一句话里的每个词都是同样的线性变换,不能够做到在不同的位置提取不同的信息
  • {>>这就是多头注意力的来源,灵感来源于 CNN 中的多个卷积核的设计<<}
  • Who,Did What,To Whom,分别拥有注意力头
  • 将注意力层视为特征探测器
  • 可以并行完成
  • 为了效率,减少注意力头的维度,并行操作这些注意力层,弥补了计算差距

4.8 卷积和多头注意力

畳み込みとマルチヘッドアテンション

  • Different linear transformations by relative position.
  • Parallel attention layers with different linear transformations on input and output.

5.Results

結果

5.1 机器翻译: WMT-2014 BLEU

機械翻訳:WMT-2014 BLEU

  • 但我们并不一定比 LSTM 取得了更好的表示,只是我们更适合 SGD,可以更好的训练
  • 我们可以对任意两个词之间构建连接

6.框架

フレーム

6.1 残差连接的必要性

残りの接続の必要性

残りの接続の必要性

  • 残差连接结构
  • 位置信息最初添加在了模型的输入处,通过残差连接将位置信息传递到每一层,可以不需要再每一层都添加位置信息

6.2 训练细节

トレーニングの詳細

  • ADAM 优化器,同时使用了学习率预热 (warmup + exponential decay)
  • 每一层在添加残差之前都会使用dropout
  • Layer-norm/层归一化
  • 有些实验中使用了Attention dropout
  • Checkpoint-averaging 检查点平均处理
  • Label smoothing 标签平滑
  • Auto-regressive decoding with beam search and length biasing 使用集束搜索和length biasing的自回归解码
  • ……

6.3 What Matters?

何が重要ですか?

6.4 Generating Wikipedia by Summarizing Long Sequences

長いシーケンスを要約してウィキペディアを生成する

7.自相似度,图片与音乐生成

自己相似性、画像、音楽の生成

7.1 自相似度,图片与音乐生成

自己相似性、画像、音楽の生成

7.2 基于概率分布的图像生成

確率分布に基づく画像生成

  • 模拟像素的联合分布
  • 把它变成一个序列建模问题
  • 分配概率允许度量泛化

確率分布に基づく画像生成

  • RNNs和CNNs是最先进的(PixelRNN, PixelCNN)
  • incorporating gating CNNs 现在在效果上与 RNNs 相近
  • 由于并行化,CNN 要快得多

確率分布に基づく画像生成

  • 图像的长期依赖关系很重要(例如对称性)
  • 可能随着图像大小的增加而变得越来越重要
  • 使用CNNs建模长期依赖关系需要两者之一
    • 多层可能使训练更加困难
    • 大卷积核参数/计算成本相应变大

7.3 自相似性的研究

自己相似性研究

  • 自相似性的研究案例

7.4 非局部均值

非局所的手段

  • A Non-local Algorithm for Image Denoising (Buades, Coll, and Morel. CVPR 2005)
  • Non-local Neural Networks (Wang et al., 2018)

7.5 既有工作

既存の仕事

  • Self-attention:
    • Parikh et al. (2016), Lin et al. (2016), Vaswani et al. (2017)
  • Autoregressive Image Generation:
    • A Oord et al. (2016), Salimans et al. (2017)

7.6 自注意力

自己注意

7.7 图像 Transformer

イメージトランスフォーマー

イメージトランスフォーマー

7.8 Attention is Cheap if length<<dim!

長さ<<薄暗い場合は注意が安いです!

7.9 Combining Locality with Self-Attention

局所性と自己注意の組み合わせ

  • 将注意力窗口限制为局部范围
  • 由于空间局部性,这在图像中是很好的假设

7.10 局部1维和2维注意力

ローカル1Dおよび2Dの注意

7.11 图像Transformer层

ImageTransformerレイヤー

7.12 Task

タスク

7.13 Results

結果

  • lmage Transformer
  • Parmar , Vaswani",Uszkoreit, Kaiser, Shazeer,Ku, and Tran.ICML 2018

7.14 无约束图像生成

制約のない画像生成

7.15 Cifar10样本

Cifar10サンプル

7.16 CelebA超分辨率重建

CelebA超解像再構築

7.17 条件图片生成

条件付き画像の生成

8.相对自注意力音乐生成

相対的な自己注意の音楽生成

8.1 音乐和语言的原始表征

音楽と言語のオリジナル表現

8.2 音乐语言模型

音楽言語モデル

  • 传统的 RNN 模型需要将长序列嵌入到固定长度的向量中

8.3 Continuations to given initial motif

Continuations to given initial motif

8.4 音乐自相似度

Self-Similarity in Music

  • 给定一段音乐并生成后续音乐
  • 不能直接去重复过去的片段
  • 难以处理长距离

8.5 注意力:加权平均

Attention : a weighted average

  • 移动的固定过滤器捕获相对距离
  • Music Transformer 使用平移不变性来携带超过其训练长度的关系信息,进行传递
  • Different linear transformations by relative position.

8.6 近观相对注意力

近观相对注意力

  • 相对注意力
  • 位置之间的相关性
  • 但是音乐中的序列长度通常非常长

8.7 机器翻译

机器翻译

8.8 既有成果

既有成果

8.9 Our formulation

Our formulation

  • 将相对距离转化为绝对距离

8.10 Goal of skewing procedure

Goal of skewing procedure

8.11 Skewing to reduce relative memoryfrom O(L2D) to O(LD)

Skewing to reduce relative memoryfrom O(L2D) to O(LD)

8.12 AJazz sample from Music Transformer

AJazz sample from Music Transformer

8.13 Convolutions and Translational Equivariance

Convolutions and Translational Equivariance

8.14 Relative Attention And Graphs

Relative Attention And Graphs

8.15 Message Passing Neural Networks

Message Passing Neural Networks

8.16 多塔结构

多塔结构

8.17 图工具库

图工具库

8.18 自注意力

 自注意力

  • 任意两个位置之间的路径长度是常数级的
  • 没有边界的内存
  • 易于并行化
  • 对自相似性进行建模
  • 相对注意力提供了表达时间、equivariance,可以自然延伸至图表

8.19 热门研究领域

热门研究领域

  • Non autoregressive transformer (Gu and Bradbury et al., 2018)
  • Deterministic Non-Autoregressive Neural Sequence Modeling by lterative Refinement(Lee,Manismov, and Cho,2018)
  • Fast Decoding in Sequence Models Using Discrete Latent Variables (ICML 2018)Kaiser, Roy, Vaswani, Pamar, Bengio, Uszkoreit, Shazeer
  • Towards a Better Understanding of Vector Quantized AutoencodersRoy,Vaswani, Parmar,Neelakantan, 2018
  • Blockwise Parallel Decoding For Deep Autogressive Models (NeurlPS 2019)Stern, Shazeer,Uszkoreit,

9.迁移学习

迁移学习

迁移学习

10.优化&大模型

优化&大模型

优化&大模型

  • Adafactor: Adaptive Learning Rates with Sublinear Memory Cost(ICML 2018).Shazeer,Stern.
  • Memory-Efficient Adaptive Optimization for Large-Scale Learning (2019).Anil,Gupta, Koren, Singer.
  • Mesh-TensorFlow: Deep Learning for Supercomputers (NeurlPS 2019).
  • Shazeer, Cheng,Parmar,Tran, Vaswani, Koanantakool,Hawkins,Lee,Hong,Young, Sepassi, Hechtman) Code (5 billion parameters)

11.自注意力其他研究与应用

自注意力其他研究与应用

自注意力其他研究与应用

  • Generating Wikipedia by Summarizing Long sequences.(ICLR 2018). Liu,Saleh,Pot, Goodrich, Sepassi, Shazeer, Kaiser.
  • Universal Transformers (ICLR 2019). Deghiani*, Gouws*,Vinyals, Uszkoreit,Kaiser.
  • Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context(2019). Dai, Yang,Yang,Carbonell,Le, Salakhutdinov.
  • A Time-Restricted Self-Attention Layer for ASR (ICASSP 2018).Povey,Hadian,Gharemani,Li, Khudanpur.
  • Character-Level Language Modeling with Deeper Self-Attention (2018).Roufou*, Choe*, Guo*, Constant* , Jones*

12.未来的工作研究方向

未来的工作研究方向

未来的工作研究方向

  • Self-supervision and classification for images and video
  • Understanding Transfer

未来

13.视频教程

可以点击 B站 查看视频的【双语字幕】版本

14.参考资料

ShowMeAI系列教程推荐

NLP系列教程文章

斯坦福 CS224n 课程带学详解

showmeai用知识加速每一次技术成长

おすすめ

転載: juejin.im/post/7098244368078733320