7.トランス-XLの原則を導入

1.言語モデル

原則2.注意が必要なの(トランス)構文解析アルゴリズムです

3.エルモ原則の解析アルゴリズム

4. OpenAI GPT原則解析アルゴリズム

5. BERT原則の解析アルゴリズム

自然エンコーダ・デコーダ(Seq2Seq)から理解6注意

7.トランス-XLの原則を導入

1.はじめに

2017年6月には、紙でのGoogle脳「注意はあなたが必要とするすべてである」トランスアーキテクチャ、完全に放棄したRNNサイクルメカニズムを提案し、自己の注目道グローバルプロセスを使用しています。私はまた、ブログの原則注意をあなたが(変圧器)構文解析アルゴリズムが必要とするすべてです導入されています。

トランス構造の特徴:

  1. 自己注意のメカニズムから、すべての注意を払って。
  2. それは上の自己関心に基づいて改善されたマルチアテンションとマルチ注目のマスク長い注意メカニズムの2種類。
  3. ネットワークが複数の層からなり、各層の構成要素は長焦点機構フィードフォワードネットワーク構成。
  4. 正弦関数を使用して、コーディング位置(位置符号化)に付加される配列情報で最も重要な位置を無視して、グローバルフォーカス機構の計算、以来各部分の位置のための位置ベクトルを生成し、終了します。

画像

2.バニラ変圧器

バニラ変圧器は、過剰なアルゴリズムの変圧器と変圧器-XL真ん中なので、導入トランス-XLの前に、私たちは下バニラ変圧器を理解するために開始します。

バニラトランス回路図:
画像

Vanilla Transformer论文中使用64层模型,并仅限于处理 512个字符这种相对较短的输入,因此它将输入分成段,并分别从每个段中进行学习,如下图所示。 在测试阶段如需处理较长的输入,该模型会在每一步中将输入向右移动一个字符,以此实现对单个字符的预测。

Vanilla Transformer的三个缺点:

  • 上下文长度受限:字符之间的最大依赖距离受输入长度的限制,模型看不到出现在几个句子之前的单词。
  • 上下文碎片:对于长度超过512个字符的文本,都是从头开始单独训练的。段与段之间没有上下文依赖性,会让训练效率低下,也会影响模型的性能。
  • 推理速度慢:在测试阶段,每次预测下一个单词,都需要重新构建一遍上下文,并从头开始计算,这样的计算速度非常慢。

3. Transformer-XL

Transformer-XL架构在vanilla Transformer的基础上引入了两点创新:

  1. 循环机制(Recurrence Mechanism)
  2. 相对位置编码(Relative Positional Encoding)。

以克服Vanilla Transformer的缺点。与Vanilla Transformer相比,Transformer-XL的另一个优势是它可以被用于单词级和字符级的语言建模。

3.1 循环机制(Recurrence Mechanism)

Transformer-XL仍然是使用分段的方式进行建模,但其与Vanilla Transformer的本质不同是在于引入了段与段之间的循环机制,使得当前段在建模的时候能够利用之前段的信息来实现长期依赖性。如下图所示:

画像

在训练阶段,处理后面的段时,每个隐藏层都会接收两个输入:

  1. 该段的前面节点的输出,与Vanilla Transformer相同(上图的灰色线)。
  2. 前面段的节点的输出(上图的绿色线),可以使模型创建长期依赖关系。这部分输出市通过cache的机制传导过来,所以不会参与梯度的计算。原则上只要GPU内存允许,该方法可以利用前面更多段的信息。

在预测阶段:

如果预测\(x_{11}\)我们只要拿之前预测好的[\(x_1\),\(x_2\)...\(x_{10}\)]的结果拿过来,直接预测。同理在预测\(x_{12}\)的时候,直接在[\(x_1\),\(x_2\)...\(x_{10}\),\(x_{11}\)]的基础上计算,不用像Vanilla Transformer一样每次预测一个字就要重新计算前面固定个数的词。

3.2 相对位置编码

在Transformer中,一个重要的地方在于其考虑了序列的位置信息。在分段的情况下,如果仅仅对于每个段仍直接使用Transformer中的位置编码,即每个不同段在同一个位置上的表示使用相同的位置编码,就会出现问题。比如,第\(i_2\)段和第\(i_1\)段的第一个位置将具有相同的位置编码,但它们对于第\(i\)段的建模重要性显然并不相同(例如第\(i_2\)段中的第一个位置重要性可能要低一些)。因此,需要对这种位置进行区分。

注目の変圧-XLの計算は、次の4つの部分に分割することができます。

  1. 元の位置符号化の生スコアを追加することなく、すなわち、コンテンツの「アドレス」に基づきます。
  2. コンテンツベースの位置、現在のコンテンツの、すなわち、相対的な位置ずれを相殺。
  3. 重点施策の重要性のためのグローバルコンテンツバイアス、。
  4. グローバル位置は、クエリとキーとの間の距離を調整することの重要性をオフセット

4.まとめ

4.1利点

  1. いくつかの異なるデータセット(大/小、文字レベル/単語レベル、など)で最も先進的な言語モデリングの結果を達成しています。
  2. モデルは、長期依存性を調べることができるようにサイクル機構およびフォーカス機構、及びこのような秒あたりの音声16Kサンプルなどの音声解析深い学習能力の他の領域(に拡張される必要があるかもしれない - 深学習における2つの重要な概念を組み合わせデータ)のように。
  3. 非常に高速な推論段階、300〜1800倍高速トランスを使用して以前のモデル言語モデルよりも最も高度な方法。

4.2未満

  1. しかし、そのようなので、上の評判分析、QAとのような特定のNLPタスクのアプリケーションに。
    どのような利点があると、コントラストをなどBERT、などの他のトランスベースのモデルを与えるものではありませんでした。
  2. トレーナーは、リソースのTPUを大量に使用する必要があります。

おすすめ

転載: www.cnblogs.com/huangyc/p/11445150.html