[Jiajia Monster Literature Sharing] 指導による歩行の学習: 動的環境における四足歩行の知覚

标题:ステアリングによる歩行の学習: 動的環境における知覚的な四足歩行

著者:Mingyo Seo、Ryan Gupta、Yifeng Zhu、Alexy Skoutnev、Luis Sentis、Yuke Zhu

来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

これは Jiajiaguai によって共有された 3 番目の記事です

まとめ

私たちは、動的な環境における感覚運動の問題を解決したいと考えています。この問題では、四足ロボットは環境の乱雑さや移動障害に対して堅牢かつ機敏な歩行動作を示さなければなりません。我々は、PRELUDE という階層学習フレームワークを提案します。これは、知覚運動の問題を、ナビゲーション指示を予測するための高レベルの決定と、目標指示を達成するための低レベルの歩行生成に分解します。このフレームワークでは、操縦可能な車上で収集された人間のデモンストレーションを利用して、模倣学習による高レベルのナビゲーション コントローラーと、強化学習 (RL) を使用した低レベルの歩行コントローラーを訓練します。したがって、私たちの方法は人間の監視から複雑なナビゲーション動作をキャプチャし、試行錯誤から変化する歩行を発見することができます。シミュレーションとハードウェア実験でアプローチの有効性を実証することを示します。私たちの方法の有効性は実験で実証されています。
ここに画像の説明を挿入します
図 1: メソッドの概要。PRELUDE は、動的環境における知覚動作の問題を解決します。制御階層を導入します。この階層では、高レベルのコントローラーが模倣学習を通じてトレーニングされてナビゲーション指示を設定し、低レベルの歩行コントローラーが強化学習を通じてトレーニングされ、共同空間実行を通じてターゲット指示を達成します。この組み合わせにより、現実世界の環境で四足ロボットに階層全体を効率的に展開できるようになります。
ここに画像の説明を挿入します
図 2: PRELUDE のモデル構造。高度なナビゲーション戦略は、搭載された RGB-D カメラの観測データとロボットの進行方向に基づいて、10Hz の周波数で目標速度コマンド ut を生成します。目標速度コマンドは、速度コマンド バッファ Bt ut、最新のロボット状態 qt、および以前の関節空間アクション at-1 とともに、低レベル歩行コントローラへの入力として使用されます。低レベルの歩行戦略は、必要な関節位置への関節空間の動きを 38Hz で予測し、それを四足ロボットに送信して作動させます。
ここに画像の説明を挿入します
図 3: ハードウェア プラットフォーム。人間によるナビゲーションのデモンストレーションを収集するために設計された操縦可能なカート (左) と、カートの高さに取り付けられた自己中心的な RGB-D カメラを備えた Unitree A1 ロボット (右)。これにより、デモンストレーション データに基づいてトレーニングされたナビゲーション戦略をロボットに直接展開できることが保証されます。
ここに画像の説明を挿入します
図 4: 実際のロボット実験。(左の写真) さまざまな構成で 15 メートルのトラックを移動するロボットの実世界での実験を実施しました。図は歩行距離の分布をメートル単位で示したものです。黒と赤の線は、それぞれ交差長の範囲と平均を表します。(写真右)PRELUDE(A1デフォルト歩容)は高速旋回後に激しく流れて壁に衝突する様子が観察されましたが、PRELUDEは歩行者を素早く振り向き、実験を成功裏に完了しました。
ここに画像の説明を挿入します
表 I: シミュレーションにおける PRELUDE とベースラインの比較。評価指標として、平均横断長 (トラックの全長: 50 メートル) と成功率 (パーセント) をメートル単位で報告します。
ここに画像の説明を挿入します
2: 歩行コントローラの評価 追跡誤差をメートル単位で報告し (小さいほど優れています)、追跡成功率をパーセンテージで報告します (高いほど優れています)。

結論は

現実世界の動的環境を横断するための四足ロボットの知覚モーション コントローラーを学習する効率的な方法として PRELUDE を紹介します。私たちのアプローチは、模倣学習と強化学習の相補的な利点を組み合わせて、階層設計を通じて移動の問題を高レベルのナビゲーションと低レベルの歩行生成に分解します。私たちは、複雑なシーンにおける人間のナビゲーションのデモンストレーションを収集するために操縦可能な自動車プラットフォームを設計し、収集したデータセットを使用して高度なナビゲーション戦略をトレーニングしました。私たちは大規模な強化学習を使用して、シミュレーションで低レベルの歩行コントローラーをトレーニングし、それが現実世界に効果的に移行し、堅牢で可変の動きを生成することを実証します。私たちの仕事は主に、人間のステアリング動作が車輪付きプラットフォームによって便利に収集できる平坦な地面と屋内環境に焦点を当てています。将来の研究では、車輪付きカートをより複雑な機械設計に拡張して、屋外の荒れた地形を歩く人間のデータセットを収集したいと考えています。

おすすめ

転載: blog.csdn.net/iii66yy/article/details/132254685