OpenAI の最新研究: ChatGPT 幻覚の軽減とより良い調整は、段階的な「プロセス監視」に依存しています

近年、大規模な言語モデルは、複雑な複数ステップの推論を実行する上で大幅に進歩しました。ただし、最先端のモデルでも、幻覚と呼ばれる論理エラーが発生する可能性があります。幻覚を軽減することは、調整された汎用人工知能 (AGI) を構築するための重要なステップです。

OpenAIは6月1日、最新の研究でChatGPTの幻覚を軽減し、より良い調整を達成するための新しい方法、つまり「プロセス監視」を通じてChatGPTなどの大規模なAIモデルの数学的推論能力を向上させる方法を提案した。

もう少し詳しく説明すると、「プロセス監視」は、最終的な正しい答え (つまり「結果監視」) だけでなく、正しい推論ステップごとに報酬を与えることによって、数学的問題を解決する際の最先端の技術を実現します。

WX20230601-110532@2x.png

報告によると、プロセス監視は、結果監視よりも高いパフォーマンスが得られることに加えて、アライメント問題の解決にも役立つ可能性があります (人間が認識できる思考の連鎖を生成するようにモデルを直接トレーニングします)。

プロセスの監視には、結果の監視と比較して調整という点でいくつかの利点があります。プロセス監視は、各ステップが正確な監視を受けるため、調整された思考の連鎖に沿って推論するモデルに直接報酬を与えます。プロセス監視は、人間が承認したプロセスにモデルが従うよう促すため、説明可能な推論を生成する可能性が高くなります。対照的に、結果の監視は不整合なプロセスに報いる可能性があり、一般にレビューが難しくなります。

実際的な問題に特化して、OpenAI 研究者は MATH テスト セットの質問を使用して、プロセス監視型報酬モデルと結果監視型報酬モデルを評価しました。問題ごとに複数の解決策を生成し、報酬モデルごとに最高ランクの解決策を選択しました。

プロットは、最終的な正解につながる選択された解決策の割合を、検討された解決策の数の関数として示します。

WX20230601-110516@2x.png

結果は、プロセス監視報酬モデルが全体的にパフォーマンスが優れているだけでなく、問題ごとに検討される解決策の数が増加するにつれてパフォーマンスの利点が拡大することを示しています。これは、プロセス監視の報酬モデルがより堅牢であることを示唆しています。

今のところ、OpenAI の研究者らは、これらの結果が数学の領域を超えて当てはまるかどうかは知りませんが、他の領域におけるプロセス監視の影響を調査する将来の研究が重要になると考えています。

おすすめ

転載: blog.csdn.net/AMiner2006/article/details/130985134