OPRO: LLM をオプティマイザーとして使用して、自然言語で記述された一連のタスクを解決する

5e80dd8828df2cb2a8036614583aa39b.png

ディープラーニング自然言語処理 原
著者: Winnie

序文

Google の最新の研究では、線形回帰や巡回セールスマン問題 (TSP) など、自然言語で記述された一連のタスクを解決するオプティマイザーとして LLM を使用する OPRO 最適化手法 (Optimization by PROmpting) が提案されています。それがどのように行われるかを見てみましょう!53572c8f01100400df91ec10f3adf974.png

論文:オプティマイザーとしての大規模言語モデル
リンク: https://arxiv.org/pdf/2309.03409.pdf

NLP グループに入る -> NLP 交換グループに参加する

概要

最近の Google の調査では、オプティマイザーとして LLM を利用する OPRO 最適化手法が提案されました。従来の反復最適化テクノロジーとは異なり、OPRO は自然言語テクノロジーを使用して最適化タスクを記述およびガイドし、LLM のガイダンスを通じて、以前に見つかったソリューションに基づいて更新された戦略を継続的に生成します。

このアプローチは柔軟性が高く、プロンプト内の問題の説明を変更するだけで、さまざまなタスクにすぐに適応できます。予備的なケーススタディでは、小規模な最適化問題について、ヒントを使用すると、LLM が手作業で設計したヒューリスティックのパフォーマンスと同等かそれを超える高品質のソリューションを見つけることができることが示されています。

OPRO 最適化によって生成された最高のチップのパフォーマンスは、GSM8K 上で従来の手作業で設計されたチップを 8% 上回っており、ビッグベンチ ハード映画レコメンデーション タスクでは、そのパフォーマンスが 50% を超えています。61ea1636d1895a26438624d4501495a3.png以下は、OPRO 最適化後の GSM8K テスト セットで良好なパフォーマンスを示したいくつかのゼロショット命令であり、将来の実践でテストする価値があります。2192241c670b25abaf305ad09397923e.png

OPRO法

OPRO はメタプロンプトを主な入力として使用するため、LLM がターゲット タスク用の新しいソリューションを生成するようになります。これらのソリューションとそのスコアが生成されると、それらはメタヒントに統合され、その後の最適化プロセスのためのより詳細なガイダンスを提供します。aa7c56304d823eb55767516ca770b438.png

メタチップ

メタチップは OPRO の中核であり、最適化プロセスの各ステップで更新されます。タスクの自然言語記述を最適化するだけでなく、プロセス全体で蓄積されるソリューションとスコアのペアも最適化します。

  1. 問題の説明: メタプロンプトの基本的な部分として、最適化問題の要件と制約が詳しく説明されます。たとえば、プロンプトで LLM に「精度をさらに向上できる新しい戦略を出力してください」と指示できます。これらの命令をメタ命令と呼びます。さらに言えば、「ポリシーは簡潔かつ要点を絞ったものであるべきである」など、LLM に対してより具体的なメタ指示を提供することもできます。

  2. 最適化された軌跡: LLM は、指定されたコンテキストから特定のパターンを識別でき、メタヒントはこの機能を利用します。具体的には、最適化の軌跡は以前の戦略とスコアを要約し、スコア順に並べ替えられます。これらのパスをメタヒントに統合すると、LLM は戦略の変更方法を明示的に指定しなくても、効率的な戦略の共通点を特定し、既存の戦略に基づいてより良いソリューションを見つけることができます。

以下の画像は例です。e883bdbe1b4aaa607c1ad7dfb5ae7d06.png

ソリューションの反復と更新

メタヒントを入力として使用して、LLM は新しいソリューションを生成します。このプロセスには 2 つの重要な問題があります。

  1. 安定性の課題: 継続的な最適化プロセス中、すべての応答が高いスコアを提供し続けるわけではありません。LLM はヒントに敏感であるため、特にポリシー空間が十分に調査されていない初期段階では、低品質の最適化軌跡が出力に大きな影響を与える可能性があります。したがって、最適化プロセスの安定性を確保するために、著者は LLM が各ステップで複数のソリューションを提供するようにガイドしています。

  2. 探索とアプリケーションのトレードオフ: LLM のサンプリング温度を調整することで、新しい戦略の探索と既存の戦略の活用の間のバランスを確保します。サンプリング温度が低いと、LLM が以前の戦略に基づいて微調整することが促進され、温度が高いと、LLM が新しい戦略の方向性を探索して試行することが促進されます。

ケース 1: 線形回帰

ケーススタディで、著者らはこの方法を 1 次元の線形回帰問題に適用し、データセットを最もよく記述する最適な線形係数を見つけるのにどのように役立つかを検討しています。具体的には、1 次元の入力変数と出力変数 (それぞれ X と y で表される) に直面し、切片 b を追加する場合、最適化する必要があるのは線形係数 w と切片 b です。

著者は、シミュレートされた環境で 1 次元変数 w および b に実際の値を設定し、それらを使用して 50 個のデータ ポイントを生成しました。最適化プロセスは、ランダムに選択された 5 つの (w, b) ペアから始まります。各ステップのメタヒントには、史上最高の (w, b) ペアの上位 20 件とそれらに対応する目的関数の値が含まれており、それによって LLM が新しいソリューションを生成するように導きます。

以下の画像は、線形回帰のメタヒントの例を示しています。

6f41e65c6ff124f35868a075234ffce7.png

結果は印象的であり、特に gpt-4 モデルを使用する場合、OPRO メソッドは解空間を効果的にナビゲートし、より少ないステップで高品質の解を見つけることができることがわかります。

d618efc0428d419e5a8fd7448f09f689.png

ケース 2: 巡回セールスマン問題 (TSP)

TSP 問題の解決において、研究者はいくつかの異なる LLM とヒューリスティックを使用して、可能な限り最短のパスを発見しました。彼らはまた、すべての手法の最適性ギャップを計算するための標準ソリューションを構築しました。

以下の図は、巡回セールスマン問題に対して著者が設計したメタキューの例を示しています。

b19d4df98e21468ddba5a2e0af46a55e.png

実験結果によると:0eb26635564384707be8fb1def3b8589.png

  • GPT-4 のパフォーマンスは傑出しており、あらゆるサイズの問題で他のモデルよりも大幅に優れており、特に小規模な問題では大域的な最適解をより迅速に見つけることができます。

  • ヒューリスティック アルゴリズムは堅牢に実行されます。単純なヒューリスティック原理に基づく最近傍法や最遠挿入法でも、TSP 問題を解決する効率が高く、特に大規模な問題を扱う場合には LLM を上回るパフォーマンスを示します。

OPRO は、LLM がさまざまな種類の目的関数を最適化できることを実証することにある程度成功しましたが、次のようないくつかの重大な制限があることが明らかになりました。

  • スケールの制限: 問題のサイズが大きくなるにつれて、LLM が最適な解決策を見つける能力は大幅に低下します。

  • 記述の制限: LLM のコンテキスト ウィンドウの長さの制限により、大規模な最適化問題の記述をヒントに完全に組み込むことが困難になります。

  • 最適化環境の課題: 一部の目的関数の最適化環境は複雑すぎるため、LLM が正しい降下方向を見つけることが困難になり、最適化プロセスが中断されます。

ケース 3: 迅速な最適化

このタスクの最適化の目標は、タスクのパフォーマンスを最大化するプロンプト入力を見つけることです。このタスクでは、LLM には 2 つの役割があります。1 つは最適化ヒントを適用する目的関数推定器として、もう 1 つはオプティマイザー LLM としてです。目的関数の評価に使用される LLM をスコアリング LLM と呼び、最適化に使用される LLM をオプティマイザ LLM と呼びます。オプティマイザ LLM の出力は、各例の問題部分に接続され、スコアリング LLM を促す命令です。

著者らは特定のタスクに基づいてデータセットを作成し、それをトレーニング部分とテスト部分に分割しました。最適化プロセスでは、トレーニング セットを使用してトレーニング精度を目標値として計算し、最適化が完了した後、テスト セットでテスト精度を計算します。

通常、かなり大規模なトレーニング セットを必要とする従来の最適化手法とは異なり、実験では少数のトレーニング サンプル (例: GSM8K のトレーニング セットの 3.5%、Big-Bench Hard の 20%) だけで十分であることが示されています。

OPRO 最適化によって生成された最高のチップのパフォーマンスは、GSM8K 上で従来の手作業で設計されたチップを 8% 上回っており、ビッグベンチ ハード映画推奨タスクでは、その超え度が 50% に達しています。(GSM8K での最適化では、スコアラーとして PaLM 2-L を使用し、オプティマイザーとしてコマンド調整された PaLM 2-L を使用します。BBH 映画推奨の最適化では、スコアラーとして text-bison を使用し、スコアラーとして PaLM 2-L-IT を使用します。以下の図は307273bf3de1cf5dca0d4462327a586e.pngGSM8K のさまざまなモデルのパフォーマンスと、最高のパフォーマンスを実現する命令を示しています。f69750eb80fda364acdb16a0e89d9ee6.png

結論

この研究では、特定の目的関数を最適化するための新しいソリューションを段階的に生成するオプティマイザーとして LLM を使用する可能性を検討します。これは主にプロンプ​​トの最適化に焦点を当てており、特定のタスクに特化して、この最適化されたプロンプトは人間が設計したプロンプトよりも 50% 以上改善することもあります。

ただし、この方法にはいくつかの制限もあります。まず、最適化プロセスをガイドする効果的なトレーニング セットに大きく依存しています。さらに、現在の LLM オプティマイザーは、生成された命令を改善するためにトレーニング セット内のエラー サンプルを有効に活用していません。これは解決する必要がある緊急の問題です。

今後の研究では、より豊富なエラーケースのフィードバックとより洗練された最適化パスを通じて LLM のパフォーマンスを向上させる方法が検討される可能性があります。近い将来、このテクノロジーはさらに洗練され、最適化されることが予想されます。


NLP グループに入る -> NLP 交換グループに参加する

おすすめ

転載: blog.csdn.net/qq_27590277/article/details/132798055