Google チームの調査によると、プロンプトの言葉と神秘的なマントラ「深呼吸してください」とおなじみの「 Let's think step by step」(ステップバイステップで考えてみましょう)を組み合わせることで、データセット上の大規模モデルのパフォーマンスが向上することがわかりました。 12%改善されました。しかも、この最も効果的なプロンプトワードはAI自身が発見したものだ。
論文: 大規模言語モデルの自己最適化
論文ソース: https://arxiv.org/abs/2309.03409
この論文は Google と DeepMind の統合部門によるものですが、著者は主に Quoc Le 氏や Zhou Dengyong 氏など、元の Google Brain チームのメンバーです。共著者は、コーネル大学を卒業して博士号を取得した復旦大学の卒業生であるチェンルン・ヤン氏と、上海交通大学の卒業生でカリフォルニア大学バークレー校を卒業し博士号を取得したチェン・シンユン氏です。
誰もが知っているように、モデルごとに最適なプロンプト ワードは異なります。この論文では、大規模モデルによって設計されたプロンプト ワードが、ビッグベンチ ハード データ セットで最大 50% 改善できることがわかりました。この論文では、プロンプトワードデザインのタスクに加えて、線形回帰や巡回セールスマン問題などの古典的な最適化タスクにおける大規模モデルの能力もテストしました。
モデルが異なれば、最適なプロンプト単語も異なります。
最適化問題はどこにでも存在し、導関数と勾配に基づくアルゴリズムは強力なツールですが、実際のアプリケーションでは勾配が適用できない状況にしばしば遭遇します。この問題を解決するために、チームは新しい手法 OPRO (PROmpting による最適化) を開発しました。
最適化問題を形式的に定義してプログラムで解くのではなく、最適化問題は自然言語で記述され、新しい解を生成するには大規模なモデルが必要になります。
グラフ フロー サマリーは、大規模なモデルへの再帰呼び出しです。
最適化の各ステップでは、以前に生成されたソリューションとスコアが入力として使用され、大規模モデルが新しいソリューションとスコアを生成して、最適化の次のステップで使用するためにプロンプト単語に追加されます。
この論文では主に Google の PaLM 2 と Bard の text-bison バージョンを評価モデルとして使用します。GPT-3.5、GPT-4と合わせて合計4モデルがオプティマイザーとして使用されます。結果は、異なるモデルによって設計されたプロンプト ワード スタイルが異なるだけでなく、適用可能なプロンプト ワード スタイルも異なることを示しています。
GPT シリーズで AI が以前に設計した最適なプロンプト ワードは、「正しい答えが得られることを確認するために、段階的に解決しましょう」です。
このプロンプトワードは APE 手法を使用して設計されており、この論文は ICLR 2023 に掲載され、GPT-3 (text-davinci-002) で人間が設計したバージョン「ステップバイステップで考えよう」を超えています。
しかし、今回の Google PaLM 2 と Bard では、APE バージョンはベースラインとして人間のバージョンほど優れていません。
OPROメソッドによって設計された新しいプロンプトワードの中で、PaLMにとって最適なのは「深呼吸をしてください」と「問題を分解してください」です。Bard 大型モデルのテキストバイソン バージョンでは、詳細なプロンプト ワードが優先されます。
さらに、この論文では、数学的オプティマイザーにおける大規模モデルの可能性も実証しています。
連続最適化問題の例としての線形回帰
巡回セールスマン問題は、離散最適化問題の例として機能します。
ヒントを使用するだけで、大規模なモデルは適切な解決策を見つけることができ、場合によっては手動で設計されたヒューリスティックと一致したり、それを超えたりすることがあります。ただし、チームは、大規模なモデルは従来の勾配ベースの最適化アルゴリズムを置き換えることはできないとも考えており、問題の規模が大きい場合 (ノード数が多い巡回セールスマン問題など)、OPRO 手法はうまく機能しません。
今後の改善方向については、現状の大規模モデルではエラーケースを有効に活用できておらず、エラーケースを提供するだけでは大規模モデルではエラーの原因を捉えることができないと提案した。有望な方向性は、エラーの場合により豊富なフィードバックを組み込み、最適化の軌跡において生成された高品質キューと低品質キューの主要な機能の違いを要約することです。この情報は、オプティマイザー モデルが過去に生成されたヒントをより効率的に改善するのに役立ち、ヒントの最適化に必要なサンプルの数をさらに減らすことができます。
研究チームはまた、映画の推薦や映画名のなりすましなどの実践的なシナリオを含む、実験で得られた最適なプロンプトワードを論文に多数提示し、友達同士で自分だけの不思議な呪文を描くことができる。