大規模な言語モデルの新しいレビュー: T5 から GPT-4 までの最も包括的な目録で、20 人を超える国内の研究者によって共同執筆されています...

From: ハート・オブ・ザ・マシーン

NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)

自然言語処理 (NLP) の分野が、一夜にして飛躍的に進歩し、一般的な人工知能の限界に達したのはなぜですか? 大規模言語モデル (LLM) は今日、どこまで発展しましたか? 今後の短期間でのAGIの開発経路はどのようなものになるでしょうか?

チューリング テストが 1950 年代に提案されて以来、人々は言語知能を処理する機械の能力を探求してきました。言語は本質的に、文法規則に支配された複雑な人間の表現システムです。したがって、言語を理解して習得できる強力な AI アルゴリズムを開発することは、大きな課題です。過去 20 年間、統計言語モデルやニューラル言語モデルなど、言語モデリング手法が言語の理解と生成に広く使用されてきました。

近年、研究者は、大規模コーパスで Transformer モデルを事前トレーニングすることにより、事前トレーニング済み言語モデル (PLM) を生成し、さまざまな NLP タスクを解決する強力な機能を実証してきました。そして研究者は、モデルのスケーリングがパフォーマンスの向上につながる可能性があることを発見したため、モデルのサイズを大きくすることでスケーリングの効果をさらに調査しました。興味深いことに、この大きな言語モデルは、パラメーターのサイズが特定のレベルを超えるとパフォーマンスが大幅に向上し、コンテキスト学習など、小さなモデルには存在しない機能が出現します。それらを PLM と区別するために、そのようなモデルは大規模言語モデル (LLM) と呼ばれます。

2019 年の Google T5 から OpenAI GPT シリーズまで、パラメータが爆発的に増加する大型モデルが続々と登場しています。LLMの研究は学界と産業界で大きく推進されていると言え、特に昨年11月末に大規模な対話モデルであるChatGPTが登場したことは、各界から広く注目を集めました。LLM の技術的進歩は、AI コミュニティ全体に重要な影響を与えており、人々が AI アルゴリズムを開発して使用する方法に革命をもたらすでしょう。

LLM の急速な技術的進歩を考慮して、中国人民大学の 20 人を超える研究者が、背景知識、主要な調査結果、および主流技術を通じて LLM の最新の進歩をレビューしました。特に、事前トレーニング、適応チューニング、および能力評価。さらに、LLM の利用可能なリソースをまとめて開発し、今後の開発の方向性などについて議論しました。この概要は、この分野の研究者やエンジニアにとって非常に役立つ学習リソースです。

69bce035d745f64c19b2e9de12f39e50.png

論文リンク: https://arxiv.org/abs/2303.18223

本文に入る前に、2019年以降に登場したさまざまな大規模言語モデル(100億以上のパラメータ)の年表を見てみましょう。そのうち、黄色でマークされた大規模モデルはオープンソース化されています。

fb6d4838f0fe8b67fa8f27d8920a1d60.png

LLM の概要

最初のセクションでは、研究者が LLM の背景、機能、および主要なテクノロジを詳細に紹介します。

LLM の背景

通常、大規模言語モデル (LLM) は、モデル GPT-3、PaLM、Galactica、LLaMA などの大量のテキスト データでトレーニングされる、数千億 (またはそれ以上) のパラメーターを含む言語モデルを指します。具体的には、LLM は Transformer アーキテクチャ上に構築されており、マルチヘッドのアテンション レイヤーが非常に深いニューラル ネットワークに積み重ねられています。既存の LLM は、主にモデル アーキテクチャ (つまり、Transformer) と、小さな言語モデルに似た事前トレーニング ターゲット (つまり、言語モデリング) を採用しています。主な違いとして、LLM はモデル サイズ、事前トレーニング データ、および合計計算 (拡張係数) を大幅にスケーリングします。自然言語をよりよく理解し、特定のコンテキスト (プロンプトなど) に基づいて高品質のテキストを生成できます。この容量の向上は、パフォーマンスがモデル サイズの大幅な増加にほぼ追従するというスケーリング則によって部分的に説明できます。ただし、特定の機能 (コンテキスト学習など) は、スケーリングの法則に従って予測できず、モデルのサイズが特定のレベルを超えた場合にのみ観察できます。

LLM の新たな機能

LLM の新しい機能は、「小さなモデルには存在しないが、大きなモデルには存在する機能」として正式に定義されています。これは、LLM を以前の PLM と区別する最も顕著な特徴の 1 つです。この新しい機能が登場する一方で、注目すべき機能も導入されています。一定のスケールでは、パフォーマンスがランダム状態よりも大幅に高くなります。類推すると、この新しいモデルは、物理学における相転移の現象と密接に関連しています。原則として、この能力はいくつかの複雑なタスクにも関連している可能性があり、人々は複数のタスクを解決するために適用できる一般的な能力に関心があります。ここでは、LLM の 3 つの代表的な新しい機能を簡単に紹介します。

文脈学習。GPT-3 では、コンテキストを学習する機能が正式に導入されています。言語モデルが自然言語の指示と複数のタスクの説明を提供していると仮定すると、追加のトレーニングやグラデーションなしで入力テキストの単語シーケンスを完成させることで、テスト インスタンスの期待される出力を生成できます。更新します。

従うべき指示。自然言語の記述 (つまり、命令) でフォーマットされたマルチタスク データセットの混合を微調整することにより、LLM は、命令の形式でも記述される小さなタスクでうまく機能します。この能力において、命令チューニングにより、LLM は明示的なサンプルを使用せずにタスク命令を理解することで新しいタスクを実行できるようになり、一般化が大幅に改善されます。

ステップバイステップの推論。数学の主題語問題など、推論の複数のステップを含む複雑なタスクは、多くの場合、小さな言語モデルでは困難です。一方、思考連鎖推論戦略を通じて、LLM は、中間の推論ステップを含む迅速なメカニズムを活用することにより、そのようなタスクを解決して最終的な答えに到達することができます。この能力は、コードトレーニングによって獲得される可能性があると推測されています。

キーテクノロジー

次に、スケーリング、トレーニング、能力刺激、アライメント チューニング、ツールの活用など、LLM の主要なテクノロジを見てみましょう。

ズーム。スケーリングは、LLM のモデル容量を増やすための重要な要素です. 当初、GPT-3 はモデル パラメーターを 1,750 億に増やし、PaLM はさらにモデル パラメーターを 5,400 億に増やしました。大規模なパラメーターは、緊急の機能にとって重要です。スケーリングは、モデル サイズだけでなく、データ サイズと合計計算にも関連しています。

訓練。サイズが大きいため、強力な機能を備えた LLM を正常にトレーニングすることは非常に困難です。したがって、LLM のネットワーク パラメーターを学習するには、多くの場合、さまざまな並列戦略の組み合わせを使用して、分散トレーニング アルゴリズムが必要です。分散トレーニングをサポートするために、DeepSpeed や Megatron-LM などの最適化フレームワークを使用して、並列アルゴリズムの実装と展開を容易にします。また、トレーニングの損失スパイクや混合精度トレーニングの再起動など、トレーニングの安定性とモデルのパフォーマンスにとって最適化のトリックは重要です。最近の GPT-4 では、特別なインフラストラクチャと最適化手法を開発して、はるかに小さなモデルを活用して、より大きなモデルのパフォーマンスを予測しています。

刺激する能力。大規模なコーパスでの事前トレーニングの後、LLM には一般的なタスクを解決する潜在的な能力が与えられます。ただし、これらの機能は、LLM が特定のタスクを実行するときに明示的に明示されない場合があります。したがって、これらの能力を刺激するための適切なタスク指示または特定のコンテキスト戦略を設計することは非常に役立ちます。たとえば、中間の推論ステップを通じて複雑な推論タスクを解決するのに役立つ思考連鎖プロンプトなどです。さらに、自然言語のタスク記述を持つ LLM をさらに調整して、目に見えないタスクへの一般化を改善できます。

アライメント調整。LLM は、事前にトレーニングされたコーパス (高品質および低品質のデータを含む) のデータ特性をキャプチャするようにトレーニングされているため、有害で偏った、有害なテキスト コンテンツを生成する可能性があります。LLM を人間の価値観に合わせるために、InstructGPT は強化学習と人間のフィードバックを使用して効率的なチューニング方法を設計し、LLM が期待される指示に従うことを可能にします。ChatGPT は InstructGPT のような技術の上に開発され、高品質で無害な応答を生成する強力な調整機能を実証しています。

ツールの利用。LLM は本質的に、大規模なプレーン テキスト コーパスでトレーニングされたテキスト ジェネレーターであるため、数値計算など、テキストが十分に表現されていないタスクではうまく機能しません。さらに、LLM の機能は事前トレーニング データによって制限され、最新の情報を取得できません。これらの問題に対応して、LLM の不足を補うために外部ツールを使用することが提案されています。たとえば、電卓を使用して正確な計算を行ったり、検索エンジンを使用して未知の情報を検索したりできます。ChatGPT は外部プラグインを使用して新しい知識をオンラインで学習します。このメカニズムにより、LLM の機能を広く拡張できます。

LLM リソース

LLM の開発または複製は、困難な技術的問題と巨大な計算リソース要件を考慮すると、決して簡単な作業ではありません。実現可能なアプローチは、既存の LLM から学び、公開されているリソースを再利用して段階的な開発や実験的研究を行うことです。

セクション III では、研究者は主に、オープンソース モデル チェックポイントまたは API、利用可能なコーパス、および LLM に役立つライブラリをまとめています。以下の表 1 は、近年の 100 億を超えるパラメータを持つ大規模モデルの統計データを示しています。

0cff0d6af00b3b738be3b6bfe8c4beb2.png

以下の表 2 に、一般的に使用されるデータ ソースを示します。

94d644bb4b6b5b9f6e9c3ed585c942a8.png

事前訓練

事前トレーニングは、LLM の能力ベースを構築します。大規模なコーパスでの事前トレーニングを通じて、LLM は基本的な言語理解と生成スキルを習得できます。このプロセスでは、トレーニング前のコーパスのサイズと品質が、LLM が強力な機能を獲得するための鍵となります。さらに、LLM を効果的に事前トレーニングするには、モデル アーキテクチャ、高速化方法、および最適化手法をすべて慎重に設計する必要があります。セクション IV では、研究者は最初にセクション 4.1 でデータの収集と処理について説明し、次にセクション 4.2 で一般的に使用されるモデル アーキテクチャを紹介し、最後にセクション 4.3 で LLM の安定した効率的な最適化のためのトレーニング手法を紹介します。

データ収集

堅牢な LLM を開発するには、さまざまなデータ ソースから大量の自然言語コーパスを収集することが重要です。既存の LLM は、主にさまざまな公開テキスト データセットを事前トレーニング コーパスとして利用します。以下の図 2 は、既存の LLM の事前トレーニング データ ソースの分布を示しています。

199d0d729b2b245f2f4d36cf00b7be1a.png

大量のテキスト データを収集した後、事前トレーニングを行って事前トレーニング コーパスを構築する必要があります。これには、ノイズ除去、冗長性の除去、無関係で潜在的に有毒なデータの削除が含まれます。以下の図 3 は、LLM の事前トレーニング データの前処理パイプラインを示しています。

0c03ad24d5ed97154cae3561d0cb8405.png

建築

このセクションでは、研究者は LLM のアーキテクチャ設計、つまりメインストリーム アーキテクチャ、トレーニング前の目的、および詳細な構成を確認します。以下の表 3 は、いくつかの代表的な LLM のモデル カードと、公開されている詳細を示しています。

a66faeeaf7bf8934eac45f50ca0ef44f.png

その優れた並列化と容量により、Transformer アーキテクチャはさまざまな LLM を開発するためのバックボーンとなり、言語モデルを数千億のパラメーターにスケーリングすることが可能になりました。一般的に言えば、既存の LLM の主流アーキテクチャは、エンコーダーデコーダー、テンポラル デコーダー、プレフィックス デコーダーの 3 つのカテゴリに大別できます。

Transformer が登場して以来、トレーニングの安定性、パフォーマンス、および計算効率を向上させるために、さまざまな改善が提案されてきました。この部分では、研究者は、正規化、位置エンコーディング、活性化機能、注意メカニズム、バイアスを含む、Transformer の 4 つの主要部分の対応する構成について説明します。

事前トレーニングは、大規模なコーパスの一般知識を大規模なモデル パラメーターにエンコードする際に重要な役割を果たします。LLM のトレーニングには、言語モデリングとノイズ除去オートエンコーダーという 2 つの一般的に使用される事前トレーニング タスクがあります。

モデルトレーニング

このセクションでは、研究者は、LLM をトレーニングするための重要な設定、テクニック、および LLM をトレーニングするためのテクニックを確認します。

LLM のパラメーター最適化のために、研究者は、バッチ トレーニング、学習率、オプティマイザー、およびトレーニングの安定性に一般的に使用される設定を提案しています。

モデルとデータの規模が拡大するにつれて、限られたコンピューティング リソースで LLM を効率的にトレーニングすることが難しくなっています。特に、入力によるトレーニングの増加や GPU メモリへのより大きなモデルのロードなど、2 つの主要な技術的問題に対処する必要があります。このセクションでは、上記の 2 つの課題、つまり 3D 並列処理、ZeRO、および混合精度トレーニングに対処するために既存の作業で広く使用されているいくつかの方法を確認し、それらをトレーニングに活用する方法について提案します。

LLM の適応チューニング

事前トレーニングの後、LLM はさまざまなタスクを解決する一般的な能力を身につけることができます。ただし、LLM の機能を特定の目標に合わせてさらに調整できることを示唆する研究が増えています。セクション V では、研究者は事前学習済み LLM を調整するための 2 つの主な方法、すなわち命令調整と配置調整について詳しく説明します。前者のアプローチは、主に LLM の機能を強化または解放することであり、後者のアプローチは、LLM の動作を人間の価値観または好みに合わせることです。

命令チューニング

本質的に、命令チューニングは、自然言語でフォーマットされた一連の例で事前にトレーニングされた LLM を微調整する方法であり、教師あり微調整およびマルチタスク ヒント トレーニングに大きく関連しています。命令チューニングを実行するには、まず命令フォーマットのインスタンスを収集または構築する必要があります。次に、通常、これらのフォーマットされたインスタンスを使用して、教師あり学習方式で LLM を微調整します (たとえば、トレーニングにシーケンス間の損失を使用します)。命令の調整後、LLM は、多言語環境であっても、目に見えないタスクを解決するために一般化する驚くべき能力を発揮できます。

最近の調査では、命令チューニング研究の体系的な概要が提供されています。対照的に、このホワイト ペーパーでは、主に LLM に対する命令チューニングの影響に焦点を当て、インスタンスの収集とチューニングに関する詳細なガイドラインまたは戦略を提供します。さらに、このホワイト ペーパーでは、InstructGPT や GPT-4 などの既存の LLM で広く使用されている、ユーザーの実際のニーズを満たすための命令チューニングの使用についても説明します。

フォーマット化されたインスタンスの構築: 通常、命令形式のインスタンスは、タスクの説明 (命令と呼ばれる)、入出力のペア、および少数のデモ (オプション) で構成されます。既存の研究では、自然言語でフォーマットされた大量のラベル付きデータが重要な公共リソースとして公開されています (利用可能なリソースのリストについては、表 5 を参照してください)。次に、この記事では、フォーマットされたインスタンスを構築する 2 つの主要な方法について説明し (図 4 の図を参照)、インスタンス構築のいくつかの重要な要素について説明します。

命令チューニング戦略: 事前トレーニングとは異なり、トレーニングに使用されるインスタンスの数が少ないため、多くの場合、命令チューニングはより効果的です。命令チューニングは教師付きトレーニング プロセスと考えることができますが、その最適化は、トレーニングの目的 (つまり、シーケンス間の損失) や最適化構成 (例えば、より小さいバッチ サイズ) など、いくつかの点で事前トレーニングとは異なります。学習率)、実際には特別な注意が必要です。これらの最適化された構成に加えて、命令のチューニングでは、次の 2 つの重要な側面も考慮する必要があります。

  • データ分散のバランスを取る。

  • 命令チューニングと事前トレーニングの組み合わせ。

ed16c8ce68482af8430fae648407c5cf.png

アライメント調整

このセクションでは、最初にアライメントの背景とその定義と基準を紹介し、次にアライメント LLM のためのヒューマン フィードバック データの収集に焦点を当て、最後にアライメント調整のためのヒューマン フィードバック強化学習の主要な手法について説明します。

36c9c1d678e421a28fb5964bd4e6ac48.png

使用

事前トレーニングまたは適応の後、LLM を使用する主な方法の 1 つは、さまざまなタスクを解決するための適切な迅速な戦略を設計することです。典型的な迅速なアプローチは、タスクの説明またはデモンストレーションを自然言語テキストの形式で定式化するコンテキスト内学習です。さらに、思考連鎖を促す方法は、一連の中間推論ステップをプロンプトに組み込むことにより、文脈学習を強化できます。セクション VI では、研究者はこれら 2 つの手法の詳細を詳しく説明します。

文脈学習

fb27bcf96de9bddd422f0d11341fbea2.png

プロンプトの特殊な形式として、コンテキスト内学習 (ICL) が GPT-3 で最初に提案され、LLM を悪用する典型的な方法になりました。

一連の思考プロンプト

思考の連鎖 (CoT) は、算術推論、常識推論、記号推論などの複雑な推論タスクにおける LLM のパフォーマンスを向上させる修正プロンプト戦略です。CoT は、ICL のように入力と出力のペアを使用してプロンプトを単純に構築するのではなく、最終的な出力につながる中間の推論ステップをプロンプトに組み込みます。セクション 6.2 では、研究者は ICL での CoT の使用について詳しく説明し、CoT が有効な場合と理由について説明します。

能力評価

LLM の有効性と優位性を研究するために、研究者は多数のタスクとベンチマークを利用して経験的評価と分析を行います。セクション VII では、最初に言語の生成と理解のための LLM の 3 つの基本的な評価タスクを提示し、次に、より複雑な設定または目的を持つ LLM のいくつかの高度なタスクを紹介し、最後に既存のベンチマークと経験的分析について説明します。

基本的な評価タスク

9fcd65fdc1580421dce76da41d1ff84e.png

8b5cb6a86b64972f7bd4991e0d0c23ec.png

図 7: LLM の内的および外的幻覚を暴露する例 (2023 年 3 月 19 日アクセス)。内部幻覚の例として、LLM は入力と矛盾する Cindy と Amy の関係について判断を下します。外部幻覚の場合、LLM は、LLM の意味を正しく理解していますが、この例の RLHF (人間のフィードバックからの強化学習) の意味を正しく理解していないようです。

高度なタスク評価

上記の基本的な評価タスクに加えて、LLM は特別な評価を必要とするいくつかの高度な能力を示します。セクション 7.2 では、研究者は、人間のアラインメント、外部環境との相互作用、およびツールの操作を含む、いくつかの代表的な高レベルの機能と対応する評価方法について説明します。

まとめと今後の方向性

最後のセクションでは、研究者はこの調査の議論を要約し、次の側面から LLM の課題と将来の開発の方向性を紹介します。

理論と理論的根拠: LLM の基本的な動作メカニズムを理解するための最大の謎の 1 つは、非常に大規模なディープ ニューラル ネットワークによって情報がどのように分散、編成、および利用されるかです。LLM のコンピテンシー基盤を構築する基本原則または要素を明らかにすることが重要です。特に、スケーリングは、LLM の機能を向上させる上で重要な役割を果たしているようです。既存の研究によると、言語モデルのパラメーター スケールが臨界点 (10B など) に達すると、いくつかの新しい機能が予期しない方法 (パフォーマンスの急激な飛躍) で現れることが示されています。通常、コンテキスト学習、命令の追跡、ステップが含まれます。 -段階的な推論。これらの「創発的な」能力は魅力的ですが、不可解でもあります.LLMはいつ、どのようにそれらを獲得するのでしょうか? 最近の研究の多くは、幅広い経験に着手し、新しい能力とこれらの能力への貢献者の影響を調査するか、既存の理論的枠組みを使用していくつかの特定の能力を説明しています。モデルの GPT ファミリを対象とした洞察に満ちた技術的な投稿もこのトピックに専念していますが、LLM の機能や動作を理解し、説明し、説明するためのより正式な理論と原則はまだ不足しています。自然界における創発的容量と相転移の間には密接な類似性があるため、LLM をある種の複雑なシステムと見なすことができるかどうかなどの学際的な理論または原則は、LLM の動作を説明および理解するのに役立つ場合があります。これらの基本的な問題は、研究コミュニティによって調査されるに値し、次世代の LLM を開発するために重要です。

モデル アーキテクチャ: 積み重ねられたマルチヘッド自己注意層で構成されるトランスフォーマーは、スケーラビリティと有効性により、LLM を構築するための一般的なアーキテクチャになりました。このアーキテクチャのパフォーマンスを改善するために、ニューラル ネットワーク構成やスケーラブルな並列トレーニングなど、さまざまな戦略が提案されています (セクション 4.2.2 で説明)。モデルの容量 (マルチターン対話機能など) をさらに改善するために、既存の LLM は通常、長いコンテキスト長を維持します。たとえば、GPT-4-32k は 32768 トークンという非常に長いコンテキスト長を持っています。したがって、実用的な考慮事項は、標準的な自己注意メカニズムによって発生する時間の複雑さ (生の二次コスト) を削減することです。

さらに、より効率的な Transformer バリアントが LLM の構築に与える影響を研究することが重要です。たとえば、GPT-3 ではスパース アテンションが使用されています。壊滅的な忘却はニューラル ネットワークの課題でもあり、LLM にも悪影響を及ぼします。新しいデータで LLM を調整する場合、以前に学んだ知識が破壊される可能性があります。たとえば、特定のタスクに従って LLM を微調整すると、LLM の一般的な能力に影響します。同様の状況は、LLM が人間の価値観と一致する場合に発生します。これは、調整税として知られています。したがって、データの更新とタスクの専門化を効果的にサポートするために、既存のアーキテクチャをより柔軟なメカニズムまたはモジュールで拡張することを検討する必要があります。

モデルのトレーニング: 実際には、使用可能な LLM の事前トレーニングは、膨大な計算負荷と、データ品質およびトレーニング スキルに対する感度のために非常に困難です。したがって、モデルの有効性、効率の最適化、トレーニングの安定性などの要因を考慮して、LLM を最適化するためのより体系的で経済的な事前トレーニング方法を開発することが特に重要になります。モデル チェックやパフォーマンス診断 (GPT-4 の予測スケーリングなど) をさらに開発して、トレーニングの初期の異常を検出します。さらに、コンピューティング クラスタ内のリソースをより適切に編成して利用するために、より柔軟なハードウェア サポートまたはリソース スケジューリング メカニズムも必要です。LLM をゼロから事前トレーニングするにはコストがかかるため、LLaMA や Flan-T5 などの公開されているモデル チェックポイントに従って、LLM を継続的に事前トレーニングまたは微調整するための適切なメカニズムを考案することが不可欠です。そのためには、データの不整合、壊滅的な忘却、タスクの専門化など、いくつかの技術的な問題に対処する必要があります。これまでのところ、再現可能な LLM 用の完全な前処理とトレーニング ログ (事前トレーニング済みデータを準備するためのスクリプトなど) を備えたオープンソース モデル チェックポイントはまだ不足しています。LLM の研究のためにより多くのオープン ソース モデルを提供することは非常に価値があります。さらに、より改善された調整戦略を開発し、モデルの能力を効果的に動機付けるメカニズムを研究することも重要です。

モデルの使用: 実際の微調整のコストが高いため、プロンプトは LLM を使用するための優れた方法として浮上しています。タスクの説明とデモンストレーションの例をプロンプトに組み込むことで、状況に応じた学習 (特殊な形式のプロンプト) により、LLM は新しいタスクで優れたパフォーマンスを発揮し、場合によってはフルデータの微調整されたモデルよりも優れたパフォーマンスを発揮します。さらに、複雑な推論の能力を向上させるために、中間推論ステップをプロンプトに組み込む思考連鎖 (CoT) 戦略などの高度なプロンプト手法が提案されています。ただし、既存のプロンプト方式には、まだ次のような欠点があります。第一に、プロンプトを設計する際に多くの人手を必要とするため、さまざまなタスクを解決するための効果的なプロンプトを自動的に生成できれば非常に便利です.第二に、いくつかの複雑なタスク (形式証明や数値計算など) には、特定の知識や論理規則が必要です.そのような知識やルールは自然言語で記述されたり、例で示されたりすることがないため、より有益で柔軟なタスク形式のプロンプト方法を開発することが重要です; 第三に、既存のプロンプト戦略は主にパフォーマンスに焦点を当てているため、開発することは有用です. ChatGPT で実証されているように、自然言語による対話など、複雑なタスクを解決するためのインタラクティブなプロンプト メカニズム。

安全性と整合性: LLM は非常に優れた機能を備えていますが、その安全性に関する懸念は小さな言語モデルの場合と同様です。たとえば、LLM は、もっともらしく見えるが真実ではない可能性があるテキストなど、テキストを幻覚させる傾向を示します。さらに悪いことに、LLM は、悪意のあるシステムに対して有害な、偏った、または有毒なテキストを生成する意図的な指示によって動機付けられ、誤用の潜在的なリスクにつながる可能性があります。LLM のその他のセキュリティ問題 (プライバシー、過度の依存、偽情報、影響力操作など) の詳細な議論については、読者は GPT-3/4 テクニカル レポートを参照してください。これらの問題を回避するための主なアプローチとして、人間のフィードバックからの強化学習 (RLHF) が広く使用されてきました。これは、優れた LLM を開発するために人間をトレーニング ループに組み込むものです。モデルのセキュリティを向上させるために、GPT-4 に示されているように、RLHF プロセスにセキュリティ関連のプロンプトを含めることも重要です。ただし、RLHF はプロのラベル付け担当者からの高品質な人間のフィードバック データに大きく依存しているため、実際に正しく実装することは困難です。したがって、RLHF フレームワークを改善して人間のラベラーの作業を減らし、データ品質を確保するためのより効率的な注釈方法を模索する必要があります。たとえば、LLM を使用してラベリング作業を支援できます。最近、LLM のモデル セキュリティを向上させるためにレッド チームが採用されました。これは、収集された敵対的プロンプトを利用して LLM を改良します (つまり、レッド チーム攻撃を回避します)。また、人間とのコミュニケーションを通じてLLMの学習メカニズムを確立することにも意味があり、チャットを通じて人間から与えられたフィードバックは、LLMが自己改善に直接活かすことができます。

アプリケーションとエコシステム: LLM はさまざまなタスクを解決する強力な機能を示しているため、さまざまな実世界のアプリケーション (特定の自然言語命令に従うなど) に適用できます。目覚ましい進歩として、ChatGPT は人間が情報を取得する方法を潜在的に変え、新しい Bing のリリースをもたらしました。近い将来、LLM が検索エンジンや認識システムなどの情報検索技術に大きな影響を与えることが予想されます。

さらに、LLM の技術的なアップグレードに伴い、インテリジェントな情報アシスタントの開発と使用が大幅に促進されます。この技術革新の波は、LLM によって強化されたアプリケーションのエコシステムを構築する傾向があり (たとえば、ChatGPT のプラグインのサポート)、人間の生活に密接に関連しています。最後に、LLM の台頭により、汎用人工知能 (AGI) の探求が明らかになりました。これまで以上にインテリジェントなシステム (おそらくマルチモーダル信号を使用) を開発することが約束されています。同時に、この開発プロセスでは、人工知能の安全性が主要な関心事の 1 つである必要があります。つまり、人工知能が人間に害を及ぼすのではなく、利益をもたらすようにします。


NLP グループに入ります —> NLP 交換グループに参加します(remark nips/emnlp/nlpcc が対応する貢献グループに入ります)

惑星に参加すると、次のものが得られます。

1.  3 ~ 5 個の最新の高品質の用紙速度測定値を毎日更新します

2. 最新の入門および上級学習教材

4.  NLP、サーチ、昇進・昇格、CVなどのAI職の1日1~3件の募集情報

7efbd522d9ea13d5d736b0f82ab7ddf1.png

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/130002775