200 を超える大規模なモデル論文により、RLHF の課題と限界が明らかになりました

出典: ハート・オブ・ザ・マシン

NLP グループに入る —> NLP 交換グループに参加する

RLHF アプローチは強力ではありますが、人間のような AI を開発する際の根本的な課題には対処していません。

ChatGPT の登場以来、OpenAI が使用するトレーニング手法であるヒューマン フィードバック強化学習 (RLHF) が大きな注目を集めており、大規模言語モデル (LLM) を微調整するための中心的な手法となっています。RLHF メソッドは、トレーニングに人間のフィードバックを使用して、役に立たない、歪んだ、または偏った出力を最小限に抑え、AI モデルを人間の価値観に合わせます。

しかし、RLHF 法にはいくつかの欠点もあり、最近、MIT CSAIL、ハーバード大学、コロンビア大学などの研究機関からの数十人の研究者が共同でレビュー論文を発表し、この分野の 200 以上の研究論文を体系的に分析および議論しました。 RLHF法は徹底的に研究されています。

7a0040e107b4a68241ca7826d4838c4c.png

論文アドレス: https://huggingface.co/papers/2307.15217

全体として、この論文は RLHF の限界を強調し、より安全な AI システムの開発には多面的なアプローチが必要であることを示しています。研究チームは次の作業を行いました。

  • RLHF および関連手法の未解決の問題と基本的な制限が調査されます。

  • 実際に RLHF を理解し、改善し、補完する方法を概説します。

  • RLHF システムに対するコミュニティの監視を改善するための監査および開示基準を提案します。

具体的には、論文の中心的な内容は次の 3 つの部分で構成されます。

1. RLHF が直面する具体的な課題。研究チームはRLHF関連の問題を分類および調査し、RLHFが直面する課題(RLHFの枠組み内で対処が容易で改善された方法を使用して対処できる)と、他の方法で対処する必要があるRLHFの根本的な限界を区別した。メソッド 位置合わせの問題を修正します。

2. RLHF をより広範な技術的安全フレームワークに統合する。この論文では、RLHF が安全な AI を開発するための完全なフレームワークではないことを示し、RLHF をよりよく理解し、改善し、補足するのに役立ついくつかの方法を説明し、問題を軽減するための複数の冗長戦略の重要性を強調しています。

3. ガバナンスと透明性。このペーパーでは、業界標準を改善するための課題を分析します。たとえば、研究者らは、RLHFを使用してAIシステムをトレーニングする企業にトレーニングの詳細を開示させることの有用性について議論した。

論文の核心部分の構造と基本的な内容を見てみましょう。

以下の図 1 に示すように、この研究では、RLHF に関連する 3 つのプロセス (人間のフィードバックの収集、報酬モデリング、およびポリシーの最適化) を分析します。その中で、フィードバック プロセスはモデル出力の人による評価につながります。報酬モデリング プロセスは教師あり学習を使用して人間の評価を模倣する報酬モデルをトレーニングします。ポリシー最適化プロセスは人工知能システムを最適化して報酬モデルの評価により良い出力を生成します。 。論文の第 3 章では、共同トレーニング報酬モデルと戦略のこれら 3 つのプロセスと 4 つの側面から、RLHF 手法の問題点と課題について説明します。

3843ee81019e4672a92298e125a4360b.png

この論文の第 3 章にまとめられた問題は、AI システムの開発において RLHF に大きく依存すると、セキュリティ リスクが生じることを示しています。RLHF は便利ですが、人間のような AI の開発における根本的な課題には対処していません。

f4ee5a75246c24db2be65fba47a4ed77.png

研究チームは、単一の戦略を包括的な解決策とみなすべきではないと考えています。より良いアプローチは、複数のセキュリティ手法の「多層防御」を採用することです。この論文の第 4 章では、RLHF の理解、改善、補完の側面から AI セキュリティを向上させる方法について詳しく説明しています。

ed5f86a83fc01099e429cc296445ba50.png

論文の第 5 章では、RLHF のガバナンスが直面するリスク要因と監査手段について概説します。

c261a1d67eb6c6d5d56e615698a8323c.png

要約する

この研究では、実際の問題の多くは RLHF の根本的な制限に起因しており、非 RLHF アプローチで回避または補償する必要があることが判明しました。したがって、この論文では 2 つの戦略の重要性を強調しています。(1) RLHF やその他のアプローチの根本的な限界に対して技術進歩を評価すること、(2) 多層防御のセキュリティ対策を採用し、研究結果を科学者とオープンに共有することによって AI に対処することコミュニティの連携の問題。

さらに、この研究は、RL ポリシーの難しい問題など、RLHF に固有ではないいくつかの課題や問題、および AI 調整の基礎となるいくつかの課題や問題を明らかにしています。

興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

f3af27adbfcd7ed9799feeb57ea287e1.png


NLP グループに入る —> NLP 交換グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/132074347
おすすめ