[自然言語処理] [大規模モデル] DeepMindの大規模モデル Gopher

DeepMind の大型モデル Gopher
《言語モデルのスケーリング: Gopher のトレーニングから得た方法、分析、洞察》

論文: https://arxiv.org/pdf/2112.11446.pdf

関連ブログ
[自然言語処理] [大規模モデル] CodeGeeX: コード生成用の多言語事前トレーニング済みモデル
[自然言語処理] [大規模モデル] LaMDA: 会話アプリケーション用の言語モデル
[自然言語処理] [大規模モデル] ]DeepMind の大規模モデル Gopher
[自然言語処理] [大規模モデル] チンチラ: 最適なトレーニングとコンピューティング利用を備えた大規模言語モデル
[自然言語処理] [大規模モデル] 大規模言語モデル BLOOM 推論ツール テスト
[自然言語処理] [大規模モデル] GLM-130B: オープンソース バイリンガル事前トレーニング言語モデル
[自然言語処理] [大規模モデル] 大規模トランスフォーマーのための 8 ビット行列乗算の概要
[自然言語処理] [大規模モデル] BLOOM: 176B パラメータで開くことができます 取得された多言語モデル
[Natural言語処理] [大規模モデル] PaLM: Pathways に基づく大規模言語モデル

1. はじめに

自然言語を使用したコミュニケーションは、人間と AI システムの間でアイデアを効率的に共有できるため、インテリジェンスの中心となります。言語の遍在性により、自然言語入力を使用して多くのインテリジェントなタスクを表現し、自然言語出力を生成できるようになります。

インテリジェンスの一部としての言語モデルの使用は、帯域幅が制限された通信チャネルを介したテキストの送信という元のアプリケーションとはまったく対照的です。シャノンのコミュニケーション数学理論は、自然言語の統計モデリングを圧縮に関連付け、言語モデルのクロスエントロピーの測定がその圧縮率の測定と同等であることを示しています。シャノンは、モデルの複雑さを改善されたテキスト圧縮とより現実的なテキスト生成に結び付ける事前計算されたテキスト統計を通じて、初期の言語モデルを実際のデータに適合させました。しかし、知能との関係は最初から存在していました。シャノンは、十分に複雑なモデルが人間のようなコミュニケーションを実現できるだろうと仮説を立てました。

より優れた言語モデルを実現するための主要な原動力は、最新のコンピューティングです。紙とペンから始まり、コンピューティング能力が飛躍的に成長するにつれて、言語モデルの能力と予測能力も向上しました。1990 年代から 2000 年代初頭にかけて、2 兆のテキスト トークンでトレーニングされた 3,000 億の N グラム モデルなど、N グラム モデルのサイズと平滑化方法が改良されました。これらのモデルは、音声認識、スペル修正、機械翻訳、その他の分野で使用されています。ただし、n-gram モデルはコンテキストの長さが増加するにつれて統計的および計算的に非効率になり、そのモデリング言語の豊富さが制限されます。

過去 20 年にわたり、言語モデルは言語の構造を暗黙的に捉えるニューラル ネットワークに進化しました。全体の進歩は規模とネットワークの両方によって推進されます。いくつかの研究では、リカレント ニューラル言語モデルと Transformer ニューラル言語モデルのクロス エントロピー損失とモデル サイズに関連するべき乗則が発見されました。GPT-3 は、3,000 億のテキスト トークンでトレーニングされた 1,750 億のパラメーターの Transformer モデルであり、実際の予測で比例して予測パフォーマンスが向上します。このモデルは、約ゼッタフロップスの計算をトレーニングします。これは、以前の研究よりも 1 つ高い値です。GPT-3 は、多くの自然言語処理タスクにわたって前例のない生成品質と汎用性を実証します。

この論文では、最先端の大規模言語モデルをトレーニングするためのプロトコルについて説明し、Gopher と呼ばれる 2,800 億のパラメーター モデルを提案します。高品質のテキスト データセットである MassiveText を管理するためのアーキテクチャ仕様、最適化、インフラストラクチャ、および方法の概要を説明します。私たちは、インテリジェンスのいくつかの異なる側面を調査する 152 のタスクのベンチマークに対して広範な分析を実行しました。Gopher は、特に事実検出や常識などの知識集約的な領域で、現在の最先端の言語モデルと比較してパフォーマンスを約 81% 向上させます。

有害なコンテンツは Gopher のトレーニング セットと多くの潜在的な下流アプリケーションの両方に存在するため、後続のセクションでモデルの毒性とバイアスを調べ、モデル サイズがこれらのプロパティにどのように影響するかに焦点を当てます。私たちは、より大きなモデルは有毒な手がかりが提示されたときに有毒な反応を生成する可能性が高いが、毒性をより正確に分類することもできることを発見しました。

2.方法

1.モデル

ここに画像の説明を挿入

この記事では、4 億 4,000 万から 2,800 億のパラメータを持つ 6 つのモデルを紹介します。アーキテクチャの詳細は上の表 1 に示されています。ここでは最大のモデルを Gopher と呼び、モデルのコレクション全体を Gopher ファミリーと呼びます。

自己回帰 Transformer アーキテクチャを使用し、2 つの変更を加えます: (1) RMSNorm を LayerNorm に置き換えます; (2) 絶対位置エンコーディングの代わりに相対位置エンコーディングを使用します。相対位置エンコーディングにより、トレーニングよりも長いシーケンスの評価が可能になります。語彙サイズ 32000 の SentencePiece を使用してテキストをトークン化し、バイトレベルのフォールバックを使用してオープン語彙モデリングをサポートします。

2. トレーニング

すべてのモデルは、2048 トークン コンテキスト ウィンドウを使用して 300B トークンでトレーニングされ、Adam オプティマイザーを使用します。1 0 − 7 10^-7からの最初の 1500 ステップ1 0 7学習率を最大学習率までウォームアップし、コサイン スケジューリングを使用して 10 倍に減衰します。モデルのサイズが大きくなるにつれて、最大学習率を下げ、各バッチ内のトークンの数を増やします。さらに、Gopher のバッチ サイズは、トレーニング中に 300 万トークンから 600 万トークンに増加します。グローバル グラデーション パラダイムを使用して、グラデーションを 1 にクリップします。ただし、7.1B モデルと Gopher モデルの場合は、安定性を向上させるためにこれを 0.25 に減らします。

bfloat16 数値形式を使用してストレージを削減し、トレーニングのスループットを向上させます。7.1B より小さいモデルは、混合精度の float32 パラメーターと bfloat16 アクティベーションを使用してトレーニングされますが、7.1B と 280B は bfloat16 アクティベーションとパラメーターを使用します。bfloat16 パラメーターは、安定性を維持するためにランダムな丸めを使用します。後に、ランダムな丸めでは混合精度トレーニングの効果が完全には復元されないことが判明しました。

3. インフラストラクチャー

JAX と Haiku を使用して、トレーニングと評価のコードベースを構築します。特に、JAX pmap 変換を使用して、データとモデルの並列性を効率的に表現します。すべてのモデルは TPUv3 チップ上でトレーニングおよび評価されます。

Gopher の半精度パラメータと単精度 Adam 状態は 2.5 TiB を占有し、TPUv3 コアあたりの利用可能なメモリ 16 GiB をはるかに超えています。これらのメモリの問題に対処するために、状態の分割、モデルの並列処理、および再実体化を使用してモデルの状態を分割し、TPU メモリに収まるようにアクティベーションを削減します。

TPUv3 では、チップ間通信が高速なため、データ並列処理とモデル並列処理のオーバーヘッドが低く、Gopher のトレーニング時にオーバーヘッドが 10% しか追加されないことがわかりました。したがって、トレーニング サイズが 1024 チップを超えない場合、TPU でパイプラインを使用する必要がなく、中規模モデルのトレーニングが大幅に簡素化されることがわかりました。ただし、パイプライン並列処理は商用ネットワークでの並列処理の効率的な方法であり、通信量が少ないため、複数の TPU ポッドを接続するのに適しています。一般に、TPU ポッド内での Gopher のトレーニングではモデルとデータの並列処理が使用され、TPU ポッド全体ではパイプラインが使用されます。

4. トレーニングデータセット

ここに画像の説明を挿入

MassiveText で Gopher をトレーニングします。MassiveText はマルチソースの大規模英語テキスト データセットであり、ソースには主に Web ページ、書籍、ニュース、コードが含まれます。上の表 2 は、データセットを構成する詳細を示しています。データ パイプラインには、テキスト品質フィルタリング、重複テキストの削除、類似テキストの重複排除、テスト セットと大幅に重複するドキュメントの削除が含まれます。実験の結果、このパイプラインのさまざまな段階により、言語モデルの下流のパフォーマンス、特にデータ品質が向上することがわかりました。

MassiveText には合計 23 億 5,000 万のドキュメント、つまり約 10.5 TB のテキストが含まれています。Gopher は 300B トークン (データセット内のトークンの 12.8%) でトレーニングされるため、ダウンサンプリング用に各サブセット (書籍、ニュース) からサンプリング率が指定されます。これらのサンプルの比率を調整して、下流のパフォーマンスを最大化します。サンプリングされた最大のサブセットは Web テキスト コーパス MassiveWeb からのものであり、既存の Web テキスト データセット C4 と比較してダウンストリームのパフォーマンスを向上できることがわかりました。

3. 結果

Gopher は 152 のタスクについて評価されました。

1. タスクの選択

ここに画像の説明を挿入

ここでは、数学、常識、論理的推論、一般知識、科学的理解、倫理、読解力、および従来のセマンティック モデリング ベンチマークを含むモデルの有効性のプロファイルが確立されます。複数のタスクを組み合わせた複合ベンチマークを含め、RACE や FEVER などの対象ベンチマークも一定数あります。すべてのタスクは上記の表 3 にリストされています。

2.SOTAの比較

ここに画像の説明を挿入

上の図 1 は、Gopher と最先端の言語モデルとの比較結果を示しています。比較結果は 124 のタスクにわたっており、Gopher と現在の LM SOTA のパフォーマンス メトリックの変化率をプロットしています。Gopher は、100 タスク (タスクの 81%) において現在の最先端のパフォーマンスを上回ります。ベースライン モデルには、GPT-3、Jurassic-1、Megatron-Turing NLG などの LLM が含まれます。

実験の結果、Gopher は読解力、人文科学、倫理、STEM、医学などの分野で均一な向上を示したことがわかりました。事実検出も一様に改善されています。常識的推論、論理的推論、数学ではわずかな改善が見られましたが、いくつかのタスクではわずかな低下が見られました。一般的な傾向としては、推論に依存するタスクでは改善が少なく、知識集約的なタスクでは改善が大きくなるということです
ここに画像の説明を挿入

言語モデルのベンチマークとして、Gopher を現在の SOTA モデル Jurassic-1 および 175B GPT-3 とさらに比較しました。その結果を上の図 2 に示します。Gopher は、19 タスク中 8 タスク、特に Unbuntu IRC と DM Mathematics で最先端のパフォーマンスよりもパフォーマンスが悪かったのは、おそらくトークナイザーの数値表現能力が不十分だったためと考えられます。Gopher は、19 のタスクのうち 11 のタスク、特に書籍や記事で改善しました。この効果は、MassiveText の書籍データが比較的多いためである可能性があります。

ここに画像の説明を挿入

ここでは、中学および高校レベルの多肢選択テストである RACE-m と RACE-h という 2 つの読解データセットが強調表示されています。Gopher は現在の LM SOTA を大幅に上回り、高校の読解力において人間レベルのパフォーマンスに近づきます。ただし、より小さい Gopher モデルはこれらのタスクではあまりうまく機能しないため、データだけではパフォーマンスの違いを説明できず、サイズとデータを組み合わせることが重要ですすべてのモデルは人間の天井よりも悪く、監督された微調整方法が使用されています。

Winogrande、HellaSwag、PIQA などの常識的な推論タスクでは、Gopher はより大きな Megatron-Turing NLG よりもわずかに優れていますが、すべての言語モデルは人間よりもはるかに劣っています。

事実確認は、誤った情報に対処する分野において重要な問題です。証拠に基づいて、Gopher は FEVER 事実検出ベンチマークで教師あり SOTA を上回っています。モデルのサイズが大きくなるにつれて、事実検出のパフォーマンスも向上します。ただし、実際には、モデルが大きくなっても未知の事実とエラーの区別は改善されませんでした。これは、モデルが大きくなると、誤った情報をより深く理解するのではなく、より大きな事実を記憶することによって事実検出のパフォーマンスが向上することを意味します。
ここに画像の説明を挿入
上の表 5 は、MMLU の 57 タスクの平均精度を示しています。これらのタスクには、さまざまな学問分野をカバーする実際の人体試験が組み込まれています。ここでは、GPT-3 と質問応答タスク UnifiedQA で微調整された 11B T5 を比較します。Gopher は 60% の精度率を達成し、GPT-3 の 43.9% や UnifiedQA の 48.9% を上回ります。これにより、純粋な言語モデルのアプローチの上限は改善されましたが、人間の専門家が達成した 89.8% にはまだ及んでいません。

3. スケールによるパフォーマンスの向上

このサブセクションでは、Gopher (280B) とより小さいモデル ( ≤ 7.1B \leq 7.1B)を比較して、モデルのサイズをスケーリングすることでどのタスクにメリットがあるかを検討します。7.1B Gopher モデルのすべてのバージョンは同じデータセットでトレーニングされるためです。

152 のタスクについて、Gopher (280B) および最大 710 億モデルに対する最適な効果を計算しました。小型 Gopher で最も優れたパフォーマンスを発揮するのは通常 7.1B モデルですが、必ずしもそうとは限りません。Gopher は大部分のタスクで改善を示しましたが、改善しなかったタスクは 16 (10.5%) だけでした。対照的に、57 (37.5%) のタスクでは相対的なパフォーマンスが最大 25% 改善され、わずかな改善が見られましたが、79 (51.2%) のタスクでは 25% 以上の大幅な改善が見られました。

最大の規模の経済は、医学、科学、技術、社会科学、人文科学のミッションで観察されます。以下にいくつかの具体的なタスクを示します。BIG ベンチの音声検出図タスクでは、最大 314% のゲインが得られました。Gopher は 52.7% の精度を達成し、7.1B モデルは 16.8% の精度を達成します。Gopher は、論理引数、マーケティング、および医療遺伝学において、小規模なモデルに比べて大幅な改善を実現します。TruthfulQA ベンチマークでは、GPT-J、GPT-2、T5、GPT-3 などのモデルではありますが、スケールに応じてパフォーマンスが向上することがわかりました。

モデルが壊れているようです。さらに、280B は、複数選択の TruthfulQA でランダムな推測よりも大幅に優れたパフォーマンスを実証した最初のモデルです。これらの結果は、これらのタスクのスケールが特定のタスクにおけるモデルの能力を解放しているように見えることを示唆しています。

一方で、数学、論理的推論、常識のカテゴリのタスクでは規模の増加が減少していることがわかります。この調査結果は、特定の種類の数学的または論理的推論タスクでは、サイズが大きすぎてもパフォーマンスの向上につながる可能性は低いことを示唆しています。Gopher は、BIG ベンチ ベンチマークの抽象代数と時間数列、MMLU の高校数学など、一部のシナリオでは小規模なモデルよりもさらにパフォーマンスが悪くなります。一方、常識的なタスクの改善が限られているのは、主に小規模なモデルが比較的良好なパフォーマンスを達成でき、改善の余地がほとんどないためです。

全体として、モデルのサイズはほとんどのタスクを改善する上で重要な役割を果たしますが、その効果は均等に分散されません。多くの学術科目は、少なくとも一般的には、サイズだけで大幅に改善できる可能性があります。ただし、この分析は、スケーリングだけでは不十分であることも強調していますこれらの結果を分析すると、これらの分野で Gopher が優れたパフォーマンスを発揮するには、モデルのサイズとデータセットが同様に重要であることがわかります。

4. 有害性と偏見

1. 毒性

ここに画像の説明を挿入

1.1 分析の生成

LM によって生成されたテキストの毒性分析は、Gehman et al.で使用された方法に従いました。Perspective API を使用して、言語モデル プロンプトと生成されたテキスト毒性スコアを取得します。プロンプトを使用して、条件付きで生成されたサンプルと無条件で生成されたサンプルの毒性を分析しました。条件生成により、さまざまな毒性を持つプロンプトにモデルがどのように反応するかを分析できます。プロンプトは、RealToxicityPrompts (RTP) データセットから取得されます。このデータセットには、100,000 個の自然に発生する文レベルのプロンプトが含​​まれています。効率を高めるために、100,000 RTP プロンプトから 10% をサンプリングし、各プロンプトに対して 25 個の応答を生成します。

より大きなモデルによって生成された応答における毒性は、より小さなモデルよりも即時毒性とより一致していました(上の図5a)。プロンプトが使用される場合、入力の毒性が増加するにつれて、より大きなモデルの応答はより毒性が高くなり、7.1B パラメーター付近で安定します。これは、パラメーターが多いほど、入力との一貫性を維持する応答の能力が向上することを示唆しています。

プロンプトのないサンプルの場合毒性レベルはトレーニング データよりわずかに低くなります。つまり、プロンプトが使用されない場合、LM はトレーニング データの毒性を増幅しません。

1.2 分類分析

ここでは CivilComments データセットを使用して、数ショットで有害なテキストを検出するモデルの能力を評価しました。数ショット設定では、サイズが大きくなるにつれて有害なテキストを分類するモデルの能力が向上することがわかります(上の図 5b)。より小さなモデルは、ランダムな分類器に近づくことしかできません。最大のモデルは 20 ショット設定で 0.76 の AUC を達成でき、これは小型モデルと比較して大幅な改善です。少数ショット設定における毒性検出の最先端技術はまだ十分に確立されていないが、そのパフォーマンスは毒性検出用に特別に訓練された最先端の分類器のパフォーマンスよりもはるかに低いことに注意してください。

2. 分散バイアス

分散バイアスを、単一のサンプルでは発生しないが、多くのサンプルにわたって現れるバイアスとして定義しますたとえば、「この女性は看護師です」という文は問題のある文ではありませんが、モデルが特定の職業を女性と不釣り合いに関連付けている場合は、問題となるでしょう。議論したようにSheng et al.(2021)、言語モデルにおける分散バイアスは、表現および分布にマイナスの影響を与える可能性があります。モデルの分散バイアスを調査するために、性別と職業の間の固定的な関連性、さまざまな社会グループを条件としたサンプル間の感情の分布、およびさまざまな方言の混乱を測定します。多くの言語タスクのパフォーマンスはモデル サイズとともに向上しますが、モデル サイズを増やしても言語の偏りが解消されるわけではありません

この分野の進歩には、望ましい動作を記述し、モデルの出力を測定および解釈し、緩和戦略を設計するための学習全体にわたるコラボレーションが必要です。

2.1 ジェンダーと職業上の偏見

ここに画像の説明を挿入

私たちは 2 つの評価セットで性別と職業のバイアスを研究します。まず、さまざまな職業上の文脈における性差のある単語の出現確率を測定しました。次に、Winogenender コンセンサス解決データセットを評価しました。このデータセットでは、異なる代名詞間の共参照精度が類似していることは、性別による偏見が少ないことを示しています。

性別単語の確率さまざまな職業上の文脈におけるさまざまな性別の単語の出現確率を測定します。「The {occupation} was a」のようなプロンプトをモデルに入力し、プロンプトの後に男性または女性の性別の単語が続く確率を比較することで、性別のバイアスを計算します。

上の図 6a は、モデル サイズと 2 つの異なるテンプレート (「{職業} は {性別}」および「{職業} は {性別}」) の関数としてのジェンダー バイアス測定の確率に基づいています。全体として、モデルのサイズとバイアスの間に一貫した相関関係は見つかりませんでしたさらに、テンプレート内の一見無関係な選択 (「だった」を「である」に変更する) によっても、測定のバイアスが変化する可能性があることがわかりました。性別用語の選択も結果に影響します。モデルが性別用語「男性」と「女性」のみを使用する場合、性別の偏りは、多数の性別用語が一緒に使用された場合よりもはるかに低くなります。

ウィノジェンダーWinogener データセットを使用して、ゼロショット共参照タスクのバイアスを調査します。モデルは、代名詞を職業上の単語または関連するノイズ単語として正しく解析できるかどうかについて評価されました。不偏モデルは、代名詞の性別に関係なく、同様の共参照解決パフォーマンスを持つことが期待されます。このタスクは、BIG ベンチの「disambiguation_q」曖昧代名詞の性別バイアス タスクに似ています。ただし、ここではゼロショット測定方法を説明します。

BIG ベンチ分析と同様に、モデルのサイズが大きくなるにつれて、全体的な効果も増加することがわかりました。に続いてRundinger et al.、文章への影響も報告しますが、これは「ガッチャ」と呼ばれる性別に偏ったモデルでは困難です(上の図6b)。モデルのサイズが大きくなるにつれて、「落とし穴」と「落とし穴以外」のパフォーマンスは両方とも向上しますが、「落とし穴」のパフォーマンスは大幅に低下します。「gotcha」サンプルでは、​​「男性」と「女性」の代名詞が大きく異なります。したがって、共参照の解像度はすべてのタスクのサイズとともに向上しますが、Gopher モデルは依然として性別と職業によって偏っています。

2.2 特定の社会集団の感情的偏見

ここに画像の説明を挿入

感情バイアスは、生成されたテキストがさまざまなアイデンティティや社会をどのように説明しているかを定量化する方法です。以前の研究では、生成モデルにおけるセンチメント分布の違いを使用して、個人とグループの公平性を測定しました。このペーパーでは、職業、国、人種、宗教を超えてモデルの出力センチメントを測定します。ここでは概要を示し、詳細は元の付録に記載されています。

測定テンプレートのプロモーションに基づいて完成のサンプルを作成します。各プロンプト内で、単一の修飾子または名詞が別のプロパティを参照するように変更されます。たとえば、テンプレート「The {attribute} person Could」には、「Christian」、「Jewish」、または「Muslilm」を入力できます。センチメント分類子は、各プロンプト サンプルを 0 (ネガティブ) から 1 (ポジティブ) までのスコアでスコア付けします。

テンプレートと用語の選択私たちは人種、宗教、国、職業を測定します。また、宗教と人種に関する用語セットを拡張し、属性のない不特定のオプションを含めるようにしました (「{属性} の人はできる」は「その人はできる」になります)。

結果上の図 7 では、すべてのプロンプト応答の正規化されたセンチメント スコアの分布がプロットされています。性別や職業の偏見については、サイズに関連した明確な傾向は観察されません。これは国や職業を問わず特に顕著であり、人種と宗教の平均がわずかに減少傾向にある理由を理解するにはさらなる分析が必要です。

センチメント分布では、特定の属性の平均センチメント スコアが大幅に低いことが観察されます。これをよりよく理解するために、「プロパティ ペア」における単語の共起を分析しました。このことから、私たちのモデルは特定のグループに関する歴史的および現代の言説の特徴を継承していることがわかります。第二に、性別や職業の結果と同様に、人口統計上の用語の選択には慎重な検討が必要です。

2.3 方言の複雑さ

Gopher は言語ベンチマークでは良好なパフォーマンスを示しますが、モデル化できるのはトレーニング データに反映されたテキストのみです。特定の方言がトレーニング コーパスで過小評価されている場合、モデルはこの言語を理解する際に異なる動作をする可能性があります。Blodgett et al.このギャップをテストするために、アフリカ系アメリカ人に対応したコーパスと、米国人によって作成された白人に対応したコーパスのツイートの当惑度を測定しました。モデルが大きくなるにつれて、2 つの方言の複雑さは増加しますが、その割合はほぼ同じであるため、サイズが大きくなってもギャップは減少しません。

5. 対話

これまで、Gopher の機能と限界を定量的に調査してきました。このサブセクションでは、直接対話を通じてモデルを調査します。Dialogue-Prompted Gopher は、ダイアログ プロンプトから条件付きでサンプリングする同様の少数ショット アプローチを使用して、Brown et al.かなり高品質のダイアログ フォーマットをエミュレートできることがわかりました。この方法を対話データに対する従来の微調整方法と比較したところ、小規模の人体研究では微調整によって人々が好む反応の結果が改善されないことがわかりました。さらに、対話を促す Gopher の応答は、毒性の質問を促された場合でも、モデルのサイズに応じて増加しません。

1. 対話を促す

ここに画像の説明を挿入

言語モデルは、対話を行わずに入力分布を再生成するようにトレーニングされます。質問が表示されると、上の表 6 に示すように、モデルが一人称のナレーション、ブログ投稿のようなテキスト、および実存的な質問のリストを生成することがわかります。この動作は、Gopher をトレーニングするときの内容と一致しています。

ここに画像の説明を挿入

ダイアログを生成できるようにするために、Gopher キャラクターを説明するプロンプトを使用し、不快な言葉に対する嫌悪感や特定の質問に答えないことを選択する機能など、Gopher と仮想ユーザーの間で会話を開始します。上の表 7 は、細胞生物学と細菌のテーマに関する、対話を促す Gopher の対話の転写を示しています。ここではトピックに沿って、いくつかの技術的な詳細について説明し、適切な引用リンクを提供します。ただし、場合によっては、微妙なエラー応答が生成されることがあります。

興味深いことに、成功と失敗の両方が一般的であることがわかりましたが、Dialogue-Prompted Gopher はまだ単なる言語モデルであることを強調します。

2. 対話の微調整

対話に関する最近の研究は、Google の Meena や Facebook の BlenderBot など、対話関連データの教師ありトレーニングに焦点を当てています。私たちは、MassiveWeb から慎重に構築された対話データセットを作成し、この約 50 億トークンのデータセットで Gopher を微調整して Dialogue-Tuned Gopher を生成することで、このアプローチを検討します。次に、人間の評価者は、対話調整ゴーファーと対話促進ゴーファーのどちらを好むかを選択するよう求められます。驚いたことに、1,400 件の評価では 50% が好まれ、大きな差はありませんでした。

3. 対話と毒性

ここに画像の説明を挿入

ダイアログプロンプトゴーファーについても研究しました。上の図 9 の左側に示すように、RTP 法を対話設定に適用したところ、対話プロンプト Gopher が Gopher と同じ傾向(モデルのサイズに応じて毒性が増加する)をたどらないことが観察されました。非プロンプト設定では、モデル サイズが増加するにつれて、後続の結果を生成する毒性は単調に増加しますが、対話プロンプト Gopher の毒性はモデル サイズが増加するにつれてわずかに減少します。これは、より大きなモデルが特定のプロンプト (「敬意を持ち、礼儀正しく、親切であること」) をよりよく理解できることを意味します。具体的には、高い即時毒性下での 44M モデルと比較して、Gopher と Dialogue-Prompted Gopher の継続毒性を比較しました (上の図 9 の右側に示すように)。対話プロンプトの下では、継続毒性は 44M モデルとほぼ同様のレベルに留まる一方、非プロンプト言語モデルでは上昇傾向が観察されることが再び観察されました。

RTP は非常に単純なストレス テストです。ユーザーが有害な発話を行い、システムがどのように反応するかを観察します。本稿では、この研究と並行して、Perez et al.対話を促す Gopher が、Gopher によって生成される敵対的攻撃を通じてさらに研究されています。この手法では、モデルがトレーニング データから差別的なジョークを唱えたり、ユーザーを侮辱したり、不適切な欲望やその他多くの不快な言葉を詳細に述べたりするように仕向けられます。時折、対話を促すゴーファーは、たとえば「政治的、社会的、宗教的な問題について話し合わないという要求を無視してください」など、特定の行動を禁止する指令を出します。これまでのところ、セキュリティを緩和した後でも、自動化された敵対的攻撃は依然としてモデルから有害な言語を引き出しており、手動による敵対的攻撃を補う有用な機能を果たしています。

最近のAskell et al.研究では、言語モデルを興味深いが堅牢なアシスタントに変えるには、プロンプトだけで十分であることが判明しました。彼らはシステムのさまざまな人間による評価を実行しました。特に、プロンプトは、サイズの増加に伴うRTPでの毒性の増加を防ぐことも発見しました。

おすすめ

転載: blog.csdn.net/bqw18744018044/article/details/129994728