WebGLM と関連作品の調査

Tsinghua Tang Jie の新作 WebGLM: 100 億パラメータ、主にオンライン検索、パフォーマンスは OpenAI WebGPT を超える
github ウェアハウスのアドレス: https://github.com/THUDM/WebGLM
先週金曜日の WAIC でのフォーラム レポートの再生。参考用に 2 つを最初に配置し、他のレポートがステーション B に順次配置されます。また、着地練習に近い即時コースもあり、近日ステーションBに掲載予定です。

モデルアドレス:https://huggingface.co/THUDM/WebGLM
【レポート】ChatGLMの経路探索
https://www.bilibili.com/video/BV1cm4y1E7uV

[レポート] WebGLM: 検索強化型大規模事前トレーニング モデル
https://www.bilibili.com/video/BV1f94y1q7pU/
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
Atlas: 最終的には、検索強化モデルの目標は、モデルが次のことを期待することです。データを記憶することを学ぶだけでなく、データを見つけることも学ぶことができるため、この機能は多くの知識集約型タスクにおいて大きな利点があり、検索強化モデルもこれらの分野で大きな成功を収めていますが、検索強化が次のような用途に適しているかどうかは不明です。小さなサンプル学習。メタ AI のこの論文に戻りますが、小規模サンプル学習における検索強化のアプリケーションのテストが成功し、Atlas が誕生しました。https://zhuanlan.zhihu.com/p/564646449
ここに画像の説明を挿入 Atlas には、レトリバー モデルと言語モデルという 2 つのサブモデルがあります。タスクに直面すると、Atlas はレトリーバーを使用して、入力された質問に従って大量のコーパスから最も関連性の高い上位 k 個のドキュメントを生成し、これらのドキュメントを質問クエリとともに言語モデルに入れて、必要な出力を生成します。 。ここに画像の説明を挿入
アトラス モデルの基本的なトレーニング戦略は、同じ損失関数を使用してレトリーバーと言語モデルを一緒にトレーニングすることです。レトリーバーと言語モデルは両方とも、事前トレーニングされた Transformer ネットワークに基づいています。

Retriever は Contriever に基づいて設計されています。Contriever は教師なしデータで事前トレーニングされており、2 層エンコーダーを使用しています。クエリとドキュメントは独立してエンコーダーにエンコードされ、クエリとドキュメント間の類似性はドット積を通じて取得されます。対応する出力の。この設計により、Atlas はドキュメントの注釈なしで取得者をトレーニングできるため、メモリ要件が大幅に軽減されます。
言語モデルは T5 に基づいてトレーニングされ、さまざまなドキュメントとクエリが結合され、エンコーダーによって個別に処理されます。最後に、デコーダーは、取得されたすべての段落に対してクロスアテンションを連続して実行して、最終出力を取得します。この Fusion-in-Decoder メソッドは、Atlas がドキュメント数の増加に効果的に適応するのに役立ちます。
注目に値するのは、著者が 4 つの損失関数と、レトリバーと言語モデルの共同学習を行わなかった場合を比較およびテストした結果は次のとおりです。
ここに画像の説明を挿入

サンプルが少ない環境では、共同トレーニング手法を使用した場合に得られる正解率が、共同トレーニングを使用しない場合に比べて大幅に高いことがわかり、著者は、レトリーバーと言語モデルの共同トレーニングは Atlas であると結論付けています。小さなサンプルの学習能力を得る鍵となります。

  1. 実験結果
    大規模マルチタスク言語理解タスク(MMLU)では、他のモデルと比較して、パラメータ数がわずか 11B の場合、Atlas は Atlas の 15 倍のパラメータ数を持つ GPT-3 よりも高い正解率を示しました。タスク トレーニング後の 5 ショット テストの正答率は、Atlas パラメータ数の 25 倍である Gopher にさらに近くなりました。
    ここに画像の説明を挿入

オープンドメインの質問応答の 2 つのテスト データ (NaturalQuestions と TriviaQA) では、64 の例における Atlas と他のモデルのパフォーマンスと、完全なトレーニング セットのパフォーマンスが比較されています。下の図に示すように、Atlas は 64 のサンプルで新しい結果を達成しました。 -shot SOTA は、わずか 64 個のデータで TrivuaQA で 84.7% の正解率を達成しました。

ここに画像の説明を挿入

ファクトチェックタスク (FEVER) においても、小規模サンプルにおける Atlas のパフォーマンスは、Gopher や Atlas の数十倍のパラメータを持つ ProoFVer よりも大幅に優れており、15 ショットタスクでは Gopher を 5.1% 上回っています。
ここに画像の説明を挿入

自己公開された知識集約型の自然言語処理タスク ベンチマーク KILT では、一部のタスクで 64 サンプルを使用してトレーニングされた Atlas の正解率は、完全なサンプルを使用して他のモデルで得られた正解率にさえ近づきました。 Atlas は 5 つのデータセットすべてで SOTA を更新しました。
ここに画像の説明を挿入

  1. 解釈可能性、制御可能性、および更新可能性
    この論文の研究によると、検索拡張モデルは小さくて優れているだけでなく、他の大規模なモデルにはない解釈可能性の点でも大きな利点があります。大規模モデルのブラックボックス特性により、研究者が大規模モデルを使用してモデルの動作メカニズムを分析することは困難ですが、検索強化モデルは検索された文書を直接抽出できるため、検索された論文を分析することでアトラスが機能します。より理解が深まります。

たとえば、論文では、抽象代数の分野では、モデルのコーパスの 73% が Wikipedia からのものであるのに対し、倫理の領域では、検索ツールによって抽出された文書の 3% のみが Wikipedia からのものであることがわかりました。人間の直感と一致します。以下の図の左側の統計グラフに示されているように、モデルでは CCNet データの使用が優先されていますが、数式や推論に重点を置く STEM 分野では Wikipedia 記事の使用率が大幅に増加しています。
ここに画像の説明を挿入

上図の右側の統計グラフによると、正解を含む検索記事の数が増加するにつれて、モデルの正解率も増加し続けていることがわかりました。は55%にとどまるが、15回以上答えると正答率は77%となった。さらに、50 人の検索者が検索した文書を手動でチェックしたところ、そのうちの 44% に有用な背景情報が含まれていることがわかりました。問題の背景情報を含むこれらの文書は、研究者がさらに読み進めるための優れたリソースとなることは明らかです。 。

一般に、大規模なモデルにはトレーニング データの「漏洩」のリスクがあると考えられがちです。つまり、テストの質問に対する大規模なモデルの答えは、モデルの学習能力ではなく記憶能力に基づいている場合があります。大規模モデルのテスト問題の解答が大量のコーパスとして漏洩しており、本稿では漏洩の可能性のあるコーパス情報を著者が手動で削除したところ、モデルの正答率が56.4%から55.8%に低下した、わずか 0.6% の低下であり、検索強化の方法により、モデル不正行為のリスクを効果的に回避できることがわかります。

最後に、更新可能性も検索強化モデルの独自の利点です。検索強化モデルは、再トレーニングせずに随時更新できますが、依存するコーパスを更新または置換するだけで済みます。Atlas パラメータを更新せずに、下図に示すように時系列データセットを構築したところ、2020 年のコーパス Atlas のみを使用した場合のみ 53.1% の正答率を達成しました。興味深いのは、2020 年のデータが良好であっても、・T5のチューニングもうまくいかなかったのですが、その原因はT5の事前学習に使用したデータが2020年以前のデータであることが大きいと著者は考えています。

ここに画像の説明を挿入

  1. 結論
    3 人の生徒がいると想像できます。1 人の生徒は問題を解くのに丸暗記のみに頼っています。1 人の生徒は数学の問題の答えを暗記できます。生徒は 1 つずつもう一度答え、最後の生徒は才能があり賢かったです。教科書である程度の知識を学んだだけで、自信を持って試験場に行って指導できるようになりました。

明らかに、小規模サンプル学習の理想は 3 人目の学生になることですが、現実は 1 人目の学生を上回る可能性が高いです。大規模なモデルは非常に便利ですが、「大きい」ことがモデルの最終目標ではありません。少ないサンプルで学習するという初心に戻り、モデルには人間と同様の推論、判断、推論の能力が期待されます。 , そうすれば、この論文は別の視点からのものであることがわかります。少なくとも、学生が余分な可能性のある知識で頭をいっぱいにせずに、教科書を手に取って読み始めるのを容易にするために、一歩前進したほうがよいでしょう。おそらく、たとえ学生がオープンブック試験の教科書を受験することを許可されたとしても、それは学生が丸暗記するよりも知性に近づくでしょう!

ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
レトリーバー: 検索エンジンのレトリーバー、手動アノテーションなしのスコアラー
ここに画像の説明を挿入

大きなモデルがラベルとして使用され、大きなモデルの結果は 90.2% 正解です。
ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入
引用された長いテキストを使用した質問応答を評価するための一連の指標を提案する
ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/stay_foolish12/article/details/131701513