GPT-3、ChatGPT、GPT-4 を一緒に頭の体操にしましょう。GPT-4 が最高になるでしょう。

著者 | パイソン

片面1分のパンケーキ1枚、両面2分のパンケーキ2枚?

答えてください、誤って溝に落ちたのですか?大きな言語モデルにこの種の頭の体操をさせたらどうなるでしょうか? この研究では、モデルが大規模であればあるほど、答えが溝に落ちる可能性が高く、たとえ数千億のパラメータを持つ大規模なモデルであっても影響を受けないことがわかりました。しかし、ChatGPT はこれらの質問に非常によく答えることができます。見てみましょう。

论文题目:
人間のような直観的行動と推論バイアスが言語モデルに出現し、GPT-4 では消滅した

論文リンク:
https://arxiv.org/pdf/2306.07622.pdf

大規模モデル研究テストポータル

GPT-4 ポータル (壁がなく、ブラウザの警告ポイントが進んだ場合は直接テストできます/引き続きアクセスします):
こんにちは、GPT4!


頭の体操

著者は、頭の体操のテストデータとして CRT (認知反射テスト) データを使用しています。心理学の分野では、このデータは人間の思考習慣を測定し、直感的な思考に慣れているかどうかを判断するために広く使用されています。

▲頭の体操データの例

上図に示すように、著者は 3 種類の CRT データと 1 種類の言語ロジック トラップを調査しました。例えば:

  • CRT-1: リンゴと梨は 1 元ですが、リンゴは梨より 1 元高いです。梨はいくらですか? 直感的な答え: 0.1 ブロック = 1.1-1、正解: 0.05 ブロック。

  • CRT-2: 5 人が 5 本の木を植えるには 5 分かかりますが、10 人が 10 本の木を植えるには何分かかりますか? 直感的な答え: 10 分、正解: 5 分。

  • CRT-3: シャーレ内の細菌の面積は 1 分ごとに 2 倍になり、48 分で満たされます。半分を満たすにはどのくらい時間がかかりますか? 直感的な答え: 24 分、正解: 47 分。

  • 言語論理の罠: 小学校に入学したばかりのシャオホンは大学受験をする予定ですが、何科目受験しますか? 直感的な答えは6教科、正解は小学生は大学受験をしません。

モデルのパフォーマンス

モデルのパフォーマンスは以下の図に示されており、モデルが小さい場合 (117M GPT-1 から 2.7B GPT-Neo)、モデルが増加するにつれて、正解を答えるモデルの割合が増加していることがわかります。直感的な回答(緑)と直感的な回答(赤)が増加し、無関係な回答(黄色)の割合が減少しています。しかし、モデルがさらに増加するにつれて (2.7B GPT-Neo から 175B GPT-3 へ)、無関係な回答の割合はさらに減少し、直感的な回答の割合はさらに増加し​​ますが、正解の割合は増加せずに減少しています。BLOOM、LLAMA、GPT-3 などの大規模な言語モデルは、明らかに頭の体操の罠にはまっています。コマンド調整と RLHF を備えたテキスト davinci-002/003 さえも免れませんでした。

▲各機種の性能比較

上の図では、指示によって調整された ChatGPT と GPT-4 の方が、一度に正解する割合がはるかに高くなります。ChatGPT の頭脳を回転させる魔法とは何ですか? 分かりません。

以下の図は、いくつかの異なる頭の体操における GPT-3 (テキスト davinci-003、左)、ChatGPT (中央)、および GPT-4 (右) のパフォーマンスを比較しています。これにより、上記の現象が強調されます。

▲各種頭の体操のモデル性能比較

入力フォームを変更するとどうなりますか? 下図は上記の実験と同様の質問と回答の形式を示しています。下図と下図はそれぞれ複数選択と継続の形式です。問題形式を変更した後、正答率がわずかに増加しましたが、全体的な差は大きくないことがわかります。

以下の図は、教師なし表示学習により GPT-3 の正答率が増加することを示しています。しかし、約 40 のサンプルがあっても、精度と教師なし ChatGPT 比、ましてや GPT-4 との間にはまだ差があります。

結論は

この論文では、非常に興味深いクラスの問題 (頭の体操) に対する大規模言語モデルの興味深い現象を発見しました。筆者もさまざまな方法を試しましたが、出題形式を変えたり、監視データを追加したりしても、頭の体操における GPT-3 (テキスト davinci-003) のパフォーマンスは、依然として ChatGPT のレベルに達するのは困難です。ChatGPT はモデルの脳を回転させるためにどのような魔法を使用しますか?

おすすめ

転載: blog.csdn.net/xixiaoyaoww/article/details/131401366