GPT-4はバカになってる？精度は 97.6% から 2.4% に低下しました

スタンフォード大学とカリフォルニア大学バークレー校との共同研究「 ChatGPT の動作は時間の経過とともにどのように変化するのか? 」では、言語モデルがさらに更新されると GPT-4 の応答性が時間の経過とともに改善するどころか悪化していることが示されました。

研究チームは、数学の問題の解決、デリケートな/危険な質問への回答、コード生成、視覚的推論という 4 つの異なるタスクに関して、2023 年 3 月と 2023 年 6 月のバージョンの GPT-3.5 と GPT-4 を評価しました。

彼らは、テストモデルが指定された整数が素数かどうかを判断する必要がある 500 の質問のデータセットを使用してモデルを評価しました。その結果、GPT-4 (2023 年 3 月バージョン) は素数の識別に非常に優れた性能を示し、質問のうち 488 問に正解し、正解率は 97.6% でした。しかし、GPT-4 (2023 年 6 月バージョン) のパフォーマンスはこれらの問題で非常に低く、正解したのは 12 問のみで、正解率はわずか 2.4% でした。

対照的に、GPT-3.5 (2023 年 6 月) は、このタスクに関して GPT-3.5 (2023 年 3 月) よりもはるかに優れたパフォーマンスを発揮します。

研究チームはまた、モデルの推論を支援するために「Chain-of-Thought」（思考の連鎖）を利用し、「17077は素数ですか？段階的に考えてください」という質問をした。しかし、最新バージョンの GPT-4 は「いいえ」と誤って答えただけでなく、問題を解決するための中間ステップを生成できませんでした。

GPT-4は、6月は3月に比べてデリケートな質問に答える意欲が低かった。また、GPT-4 と GPT-3.5 では、3 月に比べて 6 月に多くのフォーマットエラーが発生し、品質が大幅に低下しました。

GPT-4 では、直接実行可能な生成コードの割合が 3 月の 52.0% から 6 月の 10.0% に減少し、GPT-3.5 も 22.0% から 2.0% に減少しました。両方のモデルの冗長性もわずかに増加しており、GPT-4 は 20% 増加しています。

視覚的推論に関しては、GPT-4 と GPT-3.5 の両方でわずかな改善が見られます。しかし、視覚的推論クエリの 90% 以上については、3 月と 6 月のバージョンでは同じ結果が得られました。これらのサービスの全体的なパフォーマンスも低く、GPT-4 では 27.4%、GPT-3.5 では 12.2% です。また、いくつかの特定の問題に関して、GPT-4 のパフォーマンスは 3 月より 6 月の方が悪かった。

研究者らによると、これらの結果は、「同じ」LLM サービスの動作が比較的短期間で大きく変化する可能性があることを示しており、LLM 品質を継続的に監視する必要性を浮き彫りにしています。

「私たちは、さまざまなタスクにおける GPT-3.5、GPT-4、およびその他の LLM のパフォーマンスを定期的に評価することにより、進行中の長期調査でこの論文で示された結果を更新する予定です。日常のワークフローの一部として LLM サービスに依存しているユーザーまたは企業には、アプリケーションに対して同様の監視分析を実行することをお勧めします。」

詳細については、完全なレポートを参照してください。

GPT-4はバカになってる？精度は 97.6% から 2.4% に低下しました

おすすめ