デイリー アカデミック エクスプレス 5.30

CV - コンピューター ビジョン | ML - 機械学習 | RL - 強化学習 | NLP 自然言語処理  

科目: 履歴書

1.高速座標エンコーディング: RGB とポーズを使用して数分で再局在化する方法を学習(CVPR 2023 ハイライト)

タイトル: 高速座標コーディング: RGB とポーズを使用して数分でリターゲットする方法を学習

著者: エリック・ブラッハマン、トンマソ・カヴァラーリ、ヴィクトル・エイドリアン・プリサカリウ

記事リンク: https://arxiv.org/abs/2305.14059

まとめ:

        学習ベースのビジュアル リローカライザーは最先端のポーズ精度を示しますが、数時間または数日のトレーニングが必要です。新しいシーンごとにトレーニングを繰り返す必要があるため、高い精度が約束されているにもかかわらず、トレーニング時間が長いため、学習ベースの再局在化はほとんどのアプリケーションでは実用的ではありません。この論文では、そのようなシステムが実際にどのようにして 5 分未満で同じ精度を達成できるかを示します。まず明らかなことから始めます。再位置化ネットワークは、シーンに依存しない特徴バックボーンとシーン固有の予測ヘッドに分割できます。それほど明白ではありませんが、MLP 予測ヘッドを使用すると、トレーニング反復ごとに数千の視点を同時に最適化できます。これにより、安定した非常に高速な収束が実現します。さらに、効率的だが遅いエンドツーエンドのトレーニングを、堅牢なポーズ ソルバーを使用した再投影損失のクラスに置き換えます。私たちの方法では、高速トレーニングのために深度マップや 3D モデルなどの特権的な知識は必要ありません。全体として、私たちの方法は、同じ精度を維持しながら、最先端のシーン座標回帰よりもマッピングが 300 倍高速です。

件名: cs.RO

2.Visumotor Transformers を使用したタスクおよび動作計画の模倣

タイトル: Visuomotor トランスフォーマーを使用したタスクと動作計画のシミュレーション

著者:ムルタザ・ダラル、アジェイ・マンドルカール、カエラン・ギャレット、アンカー・ハンダ、ルスラン・サラクディノフ、ディーター・フォックス

記事リンク: https://arxiv.org/abs/2305.16309

まとめ:

        模倣学習はロボットの操作ポリシーをトレーニングするための強力なツールであり、手動のプログラミングや試行錯誤をせずに専門家のデモンストレーションから学ぶことができます。ただし、人間による監視などの一般的なデータ収集方法は、時間と労力がかかるため、拡張することが困難です。対照的に、タスクおよび動作計画 (TAMP) は、さまざまなデモンストレーション用の大規模なデータセットを自律的に生成できます。この研究では、TAMP のスーパーバイザーによって生成された大規模なデータセットと、それらに適応した柔軟な Transformer モデルの組み合わせが、ロボット操作の強力なパラダイムであることを示します。この目的のために、我々は、TAMPエージェントを模倣することによって大規模な視覚運動トランスポリシーを訓練する、OPTIMUSという名前の新しい模倣学習システムを提案します。OPTIMUS は、高性能の Transformer ベースのポリシーのトレーニングに使用できる模倣学習専用の TAMP データを生成するパイプラインを導入します。この論文では、TAMP を模倣するために必要な設計上の決定に関する包括的な研究を実施し、OPTIMUS が、70 を超える異なるオブジェクトを含む、さまざまな困難な視覚ベースの操作タスクを解決できることを実証します。棚や関節のあるオブジェクトの操作は、70% ~ 80% の成功率を達成します。この https URL のビデオ結果

3.反復フォワードチューニングは言語モデルにおけるコンテキスト内学習を促進します

タイトル: 反復フォワードチューニングにより言語モデルの文脈学習が促進される

著者: Jiaxi Yang、Binyuan Hui、Min Yang、Binhua Li

、フェイ・ファン、ヨンビン・リー

記事リンク: https://arxiv.org/abs/2305.13016

プロジェクトコード: https://github.com/AlibabaResearch/DAMO-ConvAI

まとめ:

        大規模言語モデル (LLM) は、コンテキスト学習 (ICL) という新しい機能を示します。ただし、一般的なケースを解決できる ICL モデルは、デモンストレーション サンプルを 1 回処理するだけでは、より複雑なタスクを解決できるようにスケールアップすることが困難です。この単一ラウンドの ICL は、人間が類推によって学習する意思決定プロセスとは互換性がありません。この論文では、Transformer のアテンションと勾配降下ベースの最適化の間の二重形式を利用することにより、LLM の ICL を向上させる効果的かつ効率的な 2 段階のフレームワークを提案します。具体的には、ICL プロセスを「深く考える」フェーズと推論フェーズに分けます。「Deep-Thinking」ステージでは、デモンストレーションに対して反復的な前方最適化を実行し、複数の「思考」デモンストレーションを通じて、試験におけるLLMの推論能力の向上が期待されます。Transformer のセルフアテンション モジュールでキーと値のマトリックスを操作することにより、累積的なメタグラデーションを生成します。次に、推論段階では、デモンストレーションを接続せずにテスト クエリのみを入力として受け取り、アテンションを介して学習されたメタ勾配を出力予測に適用します。このように、デモンストレーションはすでに学習され、最終的なメタグラデーションに保存されているため、推論段階ではデモンストレーションは必要ありません。LLM は、下流のタスクに効果的かつ効率的に適用できます。10 個の分類データセットと多肢選択データセットに関する広範な実験により、私たちの方法が精度と効率の両方の点で標準 ICL よりも優れたパフォーマンスを達成することが示されました。

Aiの詳細情報:Princess AiCharm
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/muye_IT/article/details/131030918