Transformer は本当に自然言語の意味情報を理解しているのでしょうか、それとも純粋なパターン認識なのでしょうか?

論文の引用
この読書メモと考察は主に次の 2 つの論文を対象としています。

NLU への登頂: データ時代の意味、形式、理解について

Transformer フィードフォワード層は Key-Value メモリです

この記事では、最初の論文によって引き起こされた考えについて説明し(最初の論文の詳細な解釈については[1]を参照してください)、その後、2番目の論文の実験と方法を要約します。同時に、2 番目の論文に基づいて、北京大学とマイクロソフトの数人の学者も、トランスフォーマー モデルで知識ニューロンのいくつかの方法を見つける方法に関する関連論文を発表しました。論文は次のとおりです。

事前学習済みトランスフォーマーの知識ニューロン

言語モデルは形式を学習しているのか、それとも意味を学習しているのでしょうか?
昨年の ACL2020 カンファレンスで、最高のトピック論文 [2] は、魂の拷問、つまり、言語モデルが私たちの言語の形式を学習するのか、それともその本当の意味を学習するのか、という問題を提起しました。予測についてはまったくわかりません。トレーニング言語モデルの期待値が高すぎますか? 外観の観点から見ると、大規模な事前トレーニング済み言語モデルは驚くべき学習能力を示しており、生成された文は滑らかで、特定の下流タスクでは人間を超えています。ただし、言語モデルに対して論理的な質問をされたり、具体的なアドバイスを求められたりすると、モデルが間違っていることがよくあります。たとえば、Baidu は少し前 (2021 年 10 月)、数百億のパラメータを持つ自然言語対話モデルである Plato-xl [3] をリリースしました。これは、複数の対話タスクにおいてトップレベルに達しました。それが今のSOTAであることは間違いありません。その対話効果は公開テストの対象となっています。オープンドメインチャットでは、リンク先に示した例(下図1)にあるように、チューリングテストに合格していると言えるようで、会話対象がロボットなのか、それともロボットなのかを判断するのは難しいようです。人間。しかし、いったんロジックになると、言葉の背後にある参照や関係を掘り下げると、モデルのパフォーマンスは驚くべきものになります。下の 2 番目の写真は、好奇心から WeChat ポートでモデルをテストしたときの友人の会話です。
ここに画像の説明を挿入
ここに画像の説明を挿入

論文「魂の拷問」[2] では、古典的な哲学的思考実験について言及されています。それは 1980 年にアメリカの哲学者ジョン・サールによって提案されました。この実験は「チャイニーズ・ルーム・アーギュメント」と呼ばれています。この実験では、中国語を理解できない人が中国語のルールや公式でいっぱいの部屋に入った場合、外部の中国人ユーザーとメモを通じてのみコミュニケーションを取ると仮定します。文字化けとして見慣れない文字をコンピュータのように正確に並べて操作して答えを組み立てることができれば、その人は中国語のネイティブスピーカーのように振る舞うこともできる。しかしこの人、実は中国語を理解して使いこなしていないのです。この実験と同様に、過去 10 年間の自然言語分野の発展は、大規模なテキストの事前トレーニングを通じて離散文字から低次元の高密度分散ベクトル表現を構築し、それを井戸を通じてモデル化することに他なりません。設計された損失関数言語モデル。本質的に、ディープラーニングは依然として経験的統計学習のカテゴリーに属しており、そこで学習されるのは間違いなく言語の形式にすぎません。直感的に言えば、自然言語入力がモデルに入力された後のモデルの一連の前方計算は、中国語の部屋で人々がルールに従って中国語の文字セットを配置して最終的な答えを生成することに似ています。論文 [2] が指摘しているように、人間が自然言語を使用する目的はコミュニケーションであり、その文字は特定の概念や実体に対応していることがよくあります。たとえば、窓を開けることについて話すとき、人間は窓という実体についてその機能と外観について比較的固定された定義を持ち、他の実体や概念(壁、天気、窓など)との関係について予備的な理解を持っています。および室内空気の濁度)の判断と仮定。そして、これらは言語形式(形式、つまり任意の形状のいくつかの文字)に反映することはできません。現在、私たちの言語モデルのほとんどは物理世界への注意を欠いています(マルチモーダルトレーニングとナレッジマップ情報がこの問題を解決しようとしていると見なすことができますが、現在の統合方法はまだ非常に限られています)。そして、モデルにエンティティ関係の学習が欠けている場合、現在の統計学習パラダイムでは人間の言語を真に理解できない可能性があります。上記の Baidu の Plato-XL モデルに示されているように、文字によって表されるエンティティ間の関係については何も知りません。

この記事の冒頭でこれら 2 つの論文について説明したい理由は、トランスフォーマー モデルをメモリ ニューラル ネットワークと比較した論文 [4] が、現在の大規模な事前トレーニング モデルが本当に正しいかどうかについての理解を提供してくれるからです。言語の性質をある角度から理解しています。この論文の実験は、現在の SOTA 言語モデルが依然として言語形式に焦点を当てたパターン認識モデルであることを主に証明していると思います。以下は論文の詳細な読書メモです

トランスフォーマーベースのモデルでは、単語埋め込み層とマルチヘッド アテンション層に加えて、最も重要なパラメーターはフィードフォワード ニューラル ネットワーク層です。フィードフォワード層はモデルのパラメーターの約 3 分の 2 を占めますが、モデルにおけるその役割の探索と説明はまだ比較的不足しています。論文 [4] では、この問題について次のような議論を提唱しています。

1. トランスフォーマ アーキテクチャに基づくフィードフォワード ニューラル ネットワークは、形式がメモリ ニューラル ネットワークと非常に似ていることが実証されています。また、フィードフォワード ネットワークの最初の層は、キーと値のペア (KEY-VALUE) メモリ ネットワークの KEY に対応し、フィードフォワード ネットワークの 2 層目は VALUE に対応します。

2. 各 KEY は人間が理解できる入力パターンと高度に相関しており、各 VALUE は特定の出力分布を刺激できることが実証されています。VALUE に対応する KEY に関連付けられたパターン文の次の単語は、高い確率で分布に出現します (特に高レベルのモデル)。

3. フィードフォワード ネットワークの出力は、数千のアクティベーション メモリ分布をマージするのと同等であり、最終的に新しい分布を形成することが実証されています。この分布の予測は、最後の層まで各層の残差リンクを使用して継続的に修正されます。

メモリ ネットワークとフィードフォワード ネットワークの類似点

まず、入力 x とキー k が与えられたとき、次のメモリ ネットワークを観察します
ベクトル内積の指数形式で入力 (x) に対するキー (key) の条件付き確率をモデル化するメモリ ネットワークを定義すると、メモリ ネットワーク全体が各キーの加重和であることがわかります。 -値のペア。アテンションのメカニズムに似た表現。
ここに画像の説明を挿入

そして、フィードフォワード ニューラル ネットワークの式 (1) とメモリ ネットワークの式 (2) を観察すると、変換器のフィードフォワード ネットワークの活性化関数がメモリ ネットワークの活性化関数とは異なることがわかります。フォルムがよく似ています。

ここに画像の説明を挿入
ここに画像の説明を挿入

そこで問題は、フィードフォワード ネットワークをメモリ ネットワークとみなすことができると仮定した場合、対応するキーと値は何でしょうか? 著者は次のような精緻な実験的調査を計画しました。

フィードフォワード ネットワークのキーは、入力の特定のパターンをキャプチャします。

このノートブックの冒頭の要約 2 で述べたように、著者は、フィードフォワード ネットワークのキーが入力の特定のパターンをキャプチャすると信じており、さらに、メモリ ネットワークに保存されているパターンはトレーニング データから派生すると仮定しています。この目的を達成するために、著者は次の実験を設計しました。WikiText-103 テキスト セットでトレーニングされたトランスフォーマーの場合、テキスト内の各文のプレフィックスのベクトル表現を計算し、指定されたキー ベクトルを使用してそれを計算して、次のプレフィックスを取得します。各文の係数を計算し、最後に最大の係数を持つ最初の t 個の文プレフィックスを取得して、パターンの特徴があるかどうかを観察します。

具体的には、特定の L 層の i 番目の隠れ層キー ベクトルについて
、L 層の 0 から j 単語までの各文のプレフィックスの表現
とキー ベクトルのメモリ係数を計算し
、最終的にトップを取得します。最大の係数を持つ -t 文が観察されます。

著者は、キー値に対応する文プールのバッチをマークするクーリーとして働く NLP 博士課程の学生数名を雇いました。パターンは 3 回以上繰り返され、説明的であり、表面的なパターン (単語と文の N グラムの繰り返し) が含まれている必要があります。セマンティック パターン (複数の繰り返しのテーマ)。著者らは、各キーベクトルが少なくとも 1 つの人間が解釈可能なパターンに対応し、低レベルのキーベクトルは浅いパターンを捕捉する傾向があるのに対し、高レベルのキーベクトルは抽象的な意味論的パターンを捕捉する傾向があることを発見しました。この発見は、CNN の最下位層が表示された画像の特徴を捕捉する傾向があるのに対し、上位層は抽象的な特徴を捕捉する傾向があるという事実に似ています。これは、ELMO や NLP 学会の他の論文の調査結果にも似ています。
ここに画像の説明を挿入

同時に、著者はスキーマとキーと値の関係の分析を続けています。著者は、キーベクトルのバッチをランダムにサンプリングし、対応する TOP-T 文のペアについて、先頭、末尾、または任意の位置の単語を削除し、記憶係数への影響を観察します。実験の結果、基礎となる浅いスキーマは、高レベルのキー値がそのメモリ係数に及ぼす影響と比較して、先頭の単語の削除よりも末尾の単語の削除の影響により敏感であることがわかりました。これは、高レベルの関心事と低レベルの関心事のパターン抽象化レベルが異なるという結論を裏付けています。

メモリネットワークの値ベクトルは分布を表します

ここに画像の説明を挿入

ここに画像の説明を挿入

下位層の一致率と最大確率が低いのは、下位層が上位層と同じ単語埋め込み空間を共有していない(つまり、以前の著者が提案した単純な仮定に従っていない)という事実による可能性があります。しかし、実験のこの段階では、メモリ ネットワークの値ベクトルに格納されている情報が、入力パターンに基づいて次の単語を予測する方法に大きく関連していると合理的に推論できます。根本的に、ディープ ラーニングは、経験的思考における統計学派の発展のもう 1 つの頂点にすぎません。それはパターン認識と統計学習の領域から出るものではないと思います。

メモリの集約

現時点では、作成者はまだ特定のキーと値のペアについて話しています。しかし、メモリ ネットワークはすべての値ベクトル (プラスバイアス項) の重み付けされた (メモリ係数) 合計であることがわかっています。では、値ベクトルがワード空間内の分布を表す場合、この情報はどのようにして最終的な分布に集約されるのでしょうか?

著者は次の実験を設計しました。モデルの各層の最終分布によって予測された最高確率の単語と、この層の値ベクトル分布によって予測された最高確率の単語の一致を観察します。検証セットからランダムにサンプリングされた 4000 個のデータ (これは検証モデルが推論されたときの分布であるため、トレーニング セットからのサンプリングを継続しないことに注意してください) について、データの少なくとも約 68% が、各層 層の予測単語は、この層のすべての値ベクトル予測単語と重複しません。すべてのテスト データにおいて、モデルの下位層ほど位置ずれ率が高くなります。また、レイヤーが単語を予測し、値ベクトルがこの一致を予測するケースでは、約 60% が一般的なストップ ワードであり、データの約 43% は 5 単語未満の入力です。これは、単純な一時停止予測には複数のメモリ層の集約が必要ない可能性があることを示している可能性があります。そして実験により、レイヤーの予測は、単一の値ベクトル分布ではなく、主に複数のメモリ分布の集約であることが証明されています。

モデルレイヤー間の変更

各層の出力はその値ベクトル分布の集合であることがわかっていますが、同時にフィードフォワード ネットワークの出力にはフィードフォワード ネットワークの前からの残差情報も含まれています。では、これらの残りのリンクはどのような役割を果たしているのでしょうか?

著者らは 4 つの実験を計画しました。最初の実験では、各層の残差ベクトルに対応する予測分布の最大確率ワードとモデル全体の予測分布の最大確率ワードの一致率を調査します。2 番目の実験では、モデルの予測分布内の各層の残差ベクトルに対応する予測分布内の最も高い確率の単語の確率値を調査します。両方の実験で同様の傾向が観察されました。次の 2 つの図に示すように、モデルが層ごとに進行するにつれて、モデルの最終予測はますます確実になり、確率値はますます大きくなります。
ここに画像の説明を挿入

著者らはまた、層のフィードフォワード動作が残差分布の最も高い予測単語結果をどの程度の頻度で変化させるかを調査しています。検出は、フィードフォワード ネットワークが残差の予測を変更して、予測を最終モデル予測に修正するか、残差でもモデルの最終予測でもない予測に修正するかどうかに焦点を当てます。実験結果は、ほとんどの場合、残差の最も高い予測単語がモデルの最終予測単語であることを示しています (このセクションの最初の実験で示したように)。これらの場合のほとんどでは、フィードフォワード ネットワークの出力分布の最高予測単語は、残差の最高予測単語とは異なります。そして、フィードフォワード分布が残差に統合された後の分布の最高予測ワードが、フィードフォワード分布または残差分布の最高予測ワードとして予約されることはほとんどありません。この観察は、前のメモリ集約の章で観察されたことと一致しています。最後に、著者らは、モデルの最後の層の残差分布とフィードフォワード分布が異なる 100 個の例をランダムに選択しました。集計された新しい分布の最も高い予測単語は、ケースの 66% で意味が大幅に変更されており、新しい予測単語が元の予測単語に意味的に近いケースは 34% のみであることがわかりました。これは、フィードフォワード ネットワークが最後の層であっても残差の分布を継続的に更新していることを示しています。

概要とさらに議論できる内容

この記事のすべての実験は非常に繊細で、非常に方向性のあるものです。この論文で明らかになったように、トランスフォーマーアーキテクチャに基づく大規模な事前トレーニング済み言語モデルは依然として統計に基づくパターン認識手法であると著者は考えています。しかし、論理的な観点から見ると、この論文はトランスフォーマーのような言語モデルのサブ部分の特徴の 1 つを明らかにし、このタイプの言語モデルの全体的なメカニズムを理解するための視点を提供します。しかし、言語モデルが記憶の特性だけを持っているのか、推論や連想類似など他の特性を持っているのかどうか。これらのパーツの機能は他のサブパーツと組み合わせることができますか (または組み合わせられていますか)? 現時点では、他の事前学習によって事前トレーニングされていないトランスフォーマーのような言語モデルは、関連する可能性をまだ示していないと著者は考えています。人工知能や自然言語処理の将来は、さまざまな世界知識、認知知識、専門知識をどのように深く統合するかに焦点が当てられる可能性が高くなります。

参考

^ACL 2020 | 最優秀テーマ論文賞「Towards NLU: On Meaning, Form, and Understanding in the Data Age https://www.miner.cn/research_report/5f16a5e821d8d82f52e5a2f8
^abcClimbing trying to NLU: On Meaning, Form, and Understanding in the Data Age」データの時代 https://aclanthology.org/2020.acl-main.463.pdf
^「人間よりも上手にチャットできる」百度PLATO対話ロボット公開体験 https://ai.baidu.com/support/news?action=詳細&id=2630
^abTransformer フィードフォワード層は Key-Value メモリです https://arxiv.org/abs/2012.14913

おすすめ

転載: blog.csdn.net/WitsMakeMen/article/details/132425322
おすすめ