青い文字をクリックしてください
私たちに従ってください
AI TIME は、あらゆる AI 愛好家の参加を歓迎します。
著者について
梁志軒
私は香港大学コンピューター サイエンス学部の博士課程 1 年生で、指導教官は Luo Ping 教授です。研究対象は生成機械学習、身体性 AI、データ中心学習です。
タイトル
適応的に自己進化するプランナーとしての普及モデル
簡単な紹介
拡散モデルは多くのタスクで生成モデルとして強力な機能を実証しているため、オフラインの強化学習パラダイムとして大きな可能性を秘めています。ただし、拡散モデルの品質は、トレーニング データの多様性が不十分であるため制限されます。これにより、計画タスクにおける拡散モデルのパフォーマンスが制限され、新しいタスクへの一般化が妨げられます。この論文は、拡散モデルに基づく自己進化型計画手法である AdaptDiffuser を初めて提案します。これは自己進化して拡散モデルのパフォーマンスを向上させることができ、それによって目に見えるタスクに適しているだけでなく、より優れた計画ツールになります。だけでなく、目に見えないタスクに移行することもできます。私たちのメソッド AdaptDiffuser は、まず報酬の勾配をガイドとして使用して、ターゲットの条件付きタスクに関する豊富で包括的な専門家データを生成します。次に、ディスクリミネーターを通じて高品質のデータを選択することで拡散モデルを微調整し、それによって目に見えないタスクに対する拡散モデルの一般化能力を向上させます。私たちは、KUKA 産業用ロボット アームと Maze2D の 2 つのベンチマーク環境と、慎重に設計された 2 つの目に見えないタスクで実証実験を実施し、AdaptDiffuser の有効性を実証しました。たとえば、AdaptDiffuser は、Maze2D 上の以前の Diffuser [1] よりも 20.8% 優れたパフォーマンスを示し、MuJoCo 上の以前の Diffuser より 7.5% 優れており、AdaptDiffuser は新しいタスクによりよく適応できます。専門家のデータによると、AdaptDiffuser のパフォーマンスは Diffuser と比較して 27.9% 向上しています。
コードリンク: https://adaptdiffuser.github.io/
論文リンク: https://arxiv.org/pdf/2302.01877.pdf
01
背景
2021年末に画像生成プロセスをモデル化するDDPMが提案されて以来、拡散モデルが最も強力な生成モデルとなり、Midjourneyを含む拡散モデルは非常に強力なパフォーマンスを示しました。深層生成モデルの難しさは、表現学習と判断を実行するために高次元データの同時確率分布をどのように扱うかにあります。拡散モデルが提案される前は、VAE、通常のフロー、敵対的生成ネットワークなどの多くの研究で生成モデルが検討されていました。
VAE は、エンコーダーとデコーダーを学習することで実際の画像データを潜在変数の空間にモデル化しようとします。その後、潜在変数を学習してサンプリングすることで元の画像を復元します。
Generative Adversarial Network (GAN) の主なアイデアは、生成者と弁別者の間の継続的な対立を通じてトレーニングすることです。最終的には、識別器が生成器によって生成されたデータ (画像、音声など) と実際のデータを区別することが困難になります。敵対的トレーニング手法により、生成されたモデルのパフォーマンスが向上しますが、トレーニングプロセスが不安定になったり、モデルが崩壊したりするなどの問題があります。
Normalizing Flow は、可逆関数を学習することによって、単峰分布を元の画像の多峰分布に徐々に適合させ、正常な画像の特徴が現れる確率を最大にするように継続的に適合させるトレーニング プロセスですが、その表現能力には限界があります。
VAE、GAN、または通常のフローとは異なり、拡散モデルは、画像生成プロセスをさまざまなノイズ レベルでのマルチステップ ノイズ除去モデルにモデル化します。物理学における拡散プロセスの概念を借用し、理論的には、特定の条件が満たされている限り、順拡散プロセスはあらゆる入力分布に対して可逆的であり、これらの逆プロセスの形式は変化しません。現時点では、前項の拡散過程で追加されたランダムノイズの平均と分散を学習するだけでよく、学習したネットワークを使用して、逆にガウスノイズのサンプルから元の画像を徐々に復元できます。プロセス。
この研究では、無条件拡散モデルを条件付き拡散モデルに変換する方法にも焦点を当てます。この記事で採用した方法は、ベイズの公式の対数を取得してから勾配を求めることに基づいており、勾配は次の図に示す形式に拡張されます。
条件付き生成モデルは、無条件生成モデルに事前トレーニングされた分類子を加えたものと等しいことがわかります。これは、以下の図の形式に対応します。
02
方法
前の仕事:生成モデリングとしての計画
以下の図に示すように、古典的なモデルベースの強化学習アルゴリズム (モデルベース RL) では、通常、最初に状態伝達モデルを学習し、次にワールド モデルを学習します (軌道の報酬を予測するため)。 2 つの学習されたモデルを学習し、最適化手法を通じて最適な戦略を見つけます。ただし、生成モデルを使用して強化学習タスクを解決する場合、これら 2 つのプロセスを生成モデルの生成プロセスに統合し、その状態遷移と現在のステップの報酬を同時に生成するだけで済みます。これにより、軌跡全体がワンステップで生成されます。
普及モデルは、計画タスクに関する 2022 年の ICML 記事で初めて提案されました。具体的には、下図のように軌道を単チャンネル画像で表現します。右図の縦方向がノイズ除去処理、横方向が計画処理となります。計画された軌道全体を次のようにみなします。シングルチャネル画像は、拡散モデルを使用した段階的かつ反復的なノイズ除去によって生成できます。
無条件軌道生成モデルを条件付き軌道生成モデルに変換することに関して、この記事では、無条件拡散モデルにブートストラップ関数を乗じたものに比例する動作モデルも定義しています。ICML 2022 では、2 種類のブートストラップ関数が提供されます。1 つ目は値関数のブートストラップで、2 つ目はターゲット位置のブートストラップです。無条件拡散モデルとこれら 2 つのうちのいずれかを乗算すると、指定された条件を満たす最適な軌道が得られます。
私たちの仕事: 拡散による自己進化型計画
オフライン強化学習には共通の問題があります。オフライン強化学習モデルのパフォーマンスは、オフライン トレーニング データの多様性と量によって制限されます。特に、プランナーをいくつかの新しいタスクや環境に移行するのは非常に困難です。画像における拡散モデルの優れたパフォーマンスは、私たちにいくつかのインスピレーションをもたらしました。一方で、拡散モデルには、トレーニング データとはまったく異なる異質な画像を生成する機能がある一方で、必要なのは、この機能は、拡散プロセスを再トレーニングすることなく、さまざまなタスクに適応した新しいデータを自動的に生成できます。そこで、拡散モデルの特徴を強化学習に応用し、拡散モデルに基づいて自己進化するプランナーを学習し、多様な課題や目的に活用できるようにしたいと考えています。
以下の図に示すように、本記事で提案するネットワークフレームワークです。まず拡散モデルを初期化して訓練し、モデルの事前訓練後、多様なターゲットガイダンスを使用して新しいデータを生成し、生成されたデータから高品質のデータを選択するためのより単純なルールベースの識別器を設計します。品質データ。品質データを取得した後、これらのデータを使用して拡散モデルを微調整します。このサイクルを繰り返すと、少数のサンプルで複数の関節トレーニングと同様の効果が得られます。
複数のデータセットでの実験により、AdaptDiffuser が他のモデルと比較してパフォーマンスが大幅に向上していることが証明されました。また、AdaptDiffuser が使用するダイナミクスガイド付き制約は、従来のロボットの運動学に基づく方法を使用して実際に実行可能なアクションを取得し、それがダイナミクス制約と一致しているかどうかを判断します。
下の図は、AdaptDiffuser の具体的なネットワーク フレームワークです。左側は計画と軌道生成に使用される古典的な拡散モデルです。大量のデータが生成された後、識別器を使用して高品質データかどうかが判断され、高品質データであればデータ プールに追加されます。拡散モデルを更新します。生成フェーズでは、さまざまなガイダンス機能を使用して、迷路の経路探索やピッキング タスクのさまざまな設定など、多様な異種データの生成をガイドします。
我々は、以前の報酬ガイド法に基づいて、より一般的なガイダンス法を提案します。この方法では、エキスパートの積モデル法を使用して、拡散モデルに信頼度関数を乗算するプロセスとして行動モデルをモデル化します。以前の研究では、連続報酬関数の場合、ベイジアン モデリングを使用して現在の軌道が最適な軌道であるかどうかを判断できることがわかりました。スパース報酬関数の場合、次のようにモデル化できます。ステップ関数の微分関数はインパルス関数であり、サンプリング特性があるため、対応するステップでの状態をサンプリングして割り当てることによって、必要な効果を達成できます。さらに、これに基づいて、エネルギー関数が微分可能であることのみを必要とし、特定の報酬関数形式を要求しない、エネルギー関数に基づく方法でモデル化する、この 2 つを組み合わせる方法 (エネルギー関数ガイド) を提案しました。
03
実験結果
以下の図に示すように、MuJoCo データセットの実験結果は、AdaptDiffuser がモデルベースの RL または生成モデルに基づく他の方法よりも優れたパフォーマンスを示していることを示しています。
また、AdaptDiffuser が迷路経路探索タスクでより優れたパフォーマンスを発揮することも示します。たとえば、図 (a) と (b) では、他のメソッドは障害物に遭遇したときに急旋回しますが、AdaptDiffuser はより高品質のデータでトレーニングされており、最終的に生成される軌道はよりスムーズで、より速く終点に到達できます。図 (c) と (d) のより複雑なマップ構成モジュールでは、他のメソッドも失敗しますが、AdaptDiffuser は最終パスを見つけることができます。
さらに、より重要なのは、目に見えないタスクに転送するモデルの機能です。具体的には、モデルにはトレーニングプロセス中にブロックを積み重ねたデータしかありませんが、合成データの生成プロセスとモデルの微調整の後、右のブロックを左に非常にうまく配置し、タスクを一定の順序で配置することができます。注文。
提案された複合報酬関数の効果をテストするために、一連の比較実験も実施しました。迷路の経路検索タスクでは、図 (a) と (b) の Diffuser メソッドと AdaptDiffuser メソッドが可能な最短経路を検索します。新しい報酬 (金貨) が迷路に置かれ、モデルがそれを拾う必要がある場合、AdaptDiffuser は金貨を拾うだけでなく、最終ゴールまで歩くこともできますが、対照的なベースライン メソッドである Diffuser が衝突します。迷路。
また、複数サイクルの共同トレーニング プロセス中にモデルのパフォーマンスをさらに向上できることを確認するためにアブレーション実験も実施しました。
04
議論
この記事のモデルでは、アルゴリズム パイプラインで多数の多様なタスクを生成する必要があるため、迷路タスクを直接手動で設計すると多大な時間がかかります。ChatGPT が提案された後は、言語の形式で迷路を特徴付け、その後 ChatGPT を使用して少数のサンプルで多様な迷路レイアウトを生成し、複数のプロンプトを通じてより複雑な地形を持つ迷路を生成するように導くことが完全に可能になりました。 . .
05
結論
この論文では、自己進化を通じてオフライン強化学習における拡散モデルベースのプランナーのパフォーマンスを向上させる手法である AdaptDiffuser を提案します。AdaptDiffuser は、拡散モデルを使用して合成エキスパート データを生成し、報酬誘導型識別器でその高品質部分をフィルタリングすることにより、既存の意思決定タスク、特に目標条件付きタスクにおける拡散モデルのパフォーマンスを向上させます。同時に、AdaptDiffuser は、(目に見えないタスクにおける) 専門家データなしで、このタイプのプランナーの適応性をさらに強化します。広く使用されている 2 つのオフライン RL ベンチマークに関する実験と、KUKA および Maze2d 環境で慎重に設計された目に見えないタスクに関する実験により、AdaptDiffuser の有効性が検証されました。
参考文献
[1] ジャンナー、マイケル、他。「柔軟な行動の合成のための拡散を計画する。」(ICML 2022)
主催: チェン・ヤン
レビュアー:梁志軒
運ぶ
起きている
「原文を読む」をクリックすると00:02:40にジャンプします。
リプレイが見れます!
過去号のおすすめ記事
忘れずにフォローしてください!毎日新しい知識が得られます!
AI TIMEについて
AI TIME は 2019 年に設立され、科学的思索の精神を継承し、あらゆる階層の人々を招待して人工知能の理論、アルゴリズム、シナリオの応用の本質的な問題を探求し、アイデアの衝突を強化し、世界的な AI 学者を結びつけることを目的としています。業界の専門家や愛好家は、討論の形で人工知能と人類の未来の間の矛盾を探り、人工知能分野の未来を探ります。
AI TIMEはこれまでに国内外から1,300人以上の講演者を招き、600回以上のイベントを開催し、600万人以上が視聴しました。
私はあなたを知っています。
覗く
おお
~
クリックして元のテキストを読み 、リプレイを表示します。