[Jiajiaguai 文献共有] クロスモーダル監視による視覚動作の学習

标题:クロスモーダル監視による視覚移動の学習

好き:アントニオ・ロケルシオ、アシシュ・クマール、ジテンドラ・マリク

来源:2023 IEEE International Conference on Robotics and Automation (ICRA 2023)

これは Jiajiaguai によって共有された 4 番目の記事です

まとめ

この研究では、単眼 RGB カメラと固有受容のみを使用して視覚的な歩行戦略を学習する方法を示します。RGBのシミュレーションは難しいので、現実世界で視覚を学ぶ必要があります。私たちは、模擬訓練された盲目的歩行戦略から始めました。この戦略は現実世界の地形を横断することができますが、入力されるジオメトリの知識が不足しているために行き詰まることがよくあります。視覚を使用すると、この問題を解決できます。私たちが提案する CrossModal Supervision (CMS) アルゴリズムを使用して、現実世界でビジョン モジュールをトレーニングし、今後の地形を予測します。CMS は、タイムシフト固有受容を使用して視覚を監視し、より現実世界の経験に応じて戦略を継続的に改善できるようにします。階段(最大 19 cm)、滑りやすい坂道(傾斜 35 度)、縁石や高い段差(最大 20 cm)、複雑な離散歩行など、さまざまな地形における視覚ベースの歩行戦略のパフォーマンスを評価します。地形。私たちは 30 分未満の実世界のデータを使用してこのパフォーマンスを達成しました。最後に、私たちの戦略が限られた実践経験の中で視野の変化に適応できることも示します。
ここに画像の説明を挿入します
図 1: 上に示した展開された歩行戦略は、単眼 RGB データ ストリームと固有受容のみを使用します。地形には、階段 (高さ 19 cm まで)、縁石 (高さ 20 cm まで)、坂道 (35°)、未舗装の道路、および構造化されていない建設現場が含まれます。これらの地形のいくつかは正確なピボット位置を必要とし、これは今後の地形を予測する視覚的な先読みモジュールによって実現されます。このモジュールは完全に現実世界でトレーニングされます。この目的を達成するために、私たちが提案するクロスモーダル監視 (CMS) アルゴリズムは、オンボード固有受容を使用して視覚モジュールを監視します。これにより、ポリシーは現実世界での自身の経験を使用して継続的に学習することが自然に可能になります。下部では、このような継続的な学習プロセスにより、実際のデータの 30 分未満で戦略の成功率が最初の 40% から 100% に増加したことを示しています。
ここに画像の説明を挿入します
図 2: 上: 展開中に、適応モジュールを使用して外部パラメータ zt を予測し、地形形状 (γ0、γ5、γ15) を推定します。下: CMS エラーを最小限に抑えて、地形の傾斜の時間シフトされた固有受容推定値を予測するために、現実世界で視覚モジュールをトレーニングします。CMS により、現実世界のエクスペリエンスの増加に応じて適応モジュールが継続的に改善できることがわかりました。右下では、CMS エラーが減少するにつれてウォーキング ポリシーが改善していることがわかります。
ここに画像の説明を挿入します
図 3: 現実世界の改善: (上の行) CMS を使用すると、上記のすべてのケースで約 50% から 100% の範囲でウォーキング戦略のパフォーマンスが一貫して向上することがわかりました。最終的なポリシーでは、4 日間にわたってさまざまな条件で収集された 30 分未満のデータが使用されました。(下の行) 最初のブラインド ポリシー (オレンジ色) ではなく、利用可能な最新のビジョン ポリシー (緑色) を使用してデータを収集すると、最終的なビジョン ポリシーの収束が速くなることがわかります。これは、最新のビジュアル戦略を使用して収集されたデータの品質が高いことを示しています。さらに、ビジュアル戦略は転倒することなくさらに前進できるため、現実世界でのデータ収集の効率が大幅に向上することも観察されました。
ここに画像の説明を挿入します
図 4: プリズム適応テスト: ロボットに対してよく知られたプリズム テスト [18] を実行します。
ここに画像の説明を挿入します
表 I: さまざまなグラウンド トゥルースの視覚的先読みを取得するための運動戦略のパフォーマンス。先読み値は 15 cm で飽和します。

話し合う

私たちが提案する CMS は、複数の感覚入力から収集されたオンボード データを活用してパフォーマンスを継続的に向上させるテクノロジーです。私たちの研究では環境ジオメトリの非常に低次元の表現を予測するために視覚のみを使用していますが、視覚ストリームにはさらに多くの情報 (摩擦、通過性など) が含まれています。この情報を予測すると、より複雑な地形や高速での移動に役立つ可能性があります。さらに、私たちのアプローチは現実世界の運動システムを改善するものではありません。これらの制限に対処することは、将来の取り組みの興味深い方向性です。

おすすめ

転載: blog.csdn.net/iii66yy/article/details/132256392