ニューヨーク大学の身体化されたインテリジェンスの新たな進歩: 視覚的なフィードバックを通じて缶を開けることを学ぶと、タスクの成功率が 135% 増加します。LeCun はそれを気に入っています...

アオフェイ寺院の Cressy
Qubit | パブリック アカウント QbitAI

ロボットがペンチでワイヤーを簡単に切断する様子に注目してください。

710d7ae554762ce394c752a683834cf1.gif

蓋の付いた鉄の箱は、5 を 2 で割った 3 回のクリック音で開きました。

cde88c85033a12e7225bb0afddc36af0.gif

さらに、オブジェクトの取得などのタスクも簡単に完了できます。

このロボットの背後には、ニューヨーク大学とメタ AI 研究所が立ち上げた最新の身体化インテリジェンスの成果があります。

研究者らは、視覚と触覚を組み合わせてロボットのタスク実行効率を2倍以上にする、TAVIと呼ばれる新しいトレーニング方法を提案した。

現在、研究チームの論文は公開されており、関連コードはオープンソース化されています。

4c5342ef0ff0c0a34761a0b42090ded3.png

このロボットのパフォーマンスを見て、メタの主任科学者ルカン氏は、これは驚くべき進歩だと嘆かずにはいられませんでした。

19c00165eede8f22861b49d41850fa7d.png

では、このように訓練されたロボットは他に何ができるのでしょうか?

物を拾ったり片付けたりするのは簡単です

重ねられた2つのボウルを分離し、一番上のボウルを取り出すことができます。

よく観察すると、分離プロセス中にロボットのハンドが追いかける動きをし、黄色のボウルが緑色のボウルの内壁に沿って滑っていることがわかります。

16b56734b6ccd96cc17782c0fc315814.gif

このロボットは「分割」だけでなく「合体」もできます。

赤い物体を拾った後、ロボットはそれを紫色の蓋の中に正確に置きました。

bac93ff88f4663fa95c7b1ef1f41c6b7.gif

または、ゴムを裏返します。

大きなゴムを掴んで、下のボックスを使って角度を調整しているのが見えました。

なぜもっと指を使わなかったのかわかりませんが、結局のところ、道具を使うことを学びました。

207696a9a01e658ef8c8f970defffe4e.gif

つまり、TAVI メソッドを使用して訓練された身体化された知的ロボットの動きは、ある程度人間に似ています。

4bd4c75a5bbaa4911b4d376e804238ed.png

データによると、TAVI メソッドは、6 つの典型的なタスクにおいて、触覚または視覚フィードバックのみを使用するメソッドよりも大幅に優れています。

TAVI の平均成功率は、触覚情報を使用しない AVI 法と比較して 135% 向上し、画像 + 触覚報酬モデル法と比較しても 2 倍となっています。

しかし、同様に視覚と触覚の混合モデルを使用する T-DEX トレーニング方法の成功率は、TAVI の成功率の 4 分の 1 以下です。

57f2ba09e67300146cee1e95496fe892.png

TAVI によって訓練されたロボットは強力な汎化能力も備えており、これまで見たことのないオブジェクトに対するタスクを完了することもできます。

「ボウルを取る」と「箱に詰める」という 2 つのタスクにおいて、未知の物体に直面した場合のロボットの成功率は半分を超えました

さらに、TAVI メソッドによって訓練されたロボットは、さまざまなタスクをうまく完了できるだけでなく、複数のサブタスクを順番に実行することもできます。

堅牢性の観点から、研究チームはカメラの角度を調整してテストを実施しましたが、ロボットは依然として高い成功率を維持しました。

416b0ba83edd812985cce63d58796e65.png

では、TAVI メソッドはどのようにしてそのような効果を達成するのでしょうか?

視覚情報を利用したロボットの性能評価

TAVI の核心は視覚的なフィードバックを使用してロボットを訓練することであり、その作業は主に 3 つのステップに分かれています。

8be2777f4807633117d83a0f21ddb63e.png

1つ目は、人間が与える実証情報を視覚と触覚の2次元から収集することです。

収集された視覚情報は、その後の学習プロセスで使用する報酬関数を構築するために使用されます。

このプロセスでは、システムは比較学習を使用してタスクを完了するために役立つ視覚的特徴を取得し、ロボットの動作の完了を評価します。

次に、触覚情報と視覚フィードバックを組み合わせて強化学習を通じてトレーニングし、ロボットはより高い完了スコアを取得するまで何度も試行することができます。

TAVI の学習は段階的なプロセスであり、学習ステップが増えるにつれて、報酬関数はますます完璧になり、ロボットの動作はますます正確になります。

2bfba086d84afff8effeb65cbcfa84ee.png

TAVI の柔軟性を向上させるために、研究チームは残差戦略も導入しました。

基本戦略との違いに遭遇した場合、最初から始める必要はなく、異なる部分を学ぶだけで済みます。

アブレーション実験の結果は、残存戦略がなくロボットが毎回最初から学習する場合、ロボットがタスクを完了する成功率が低下することを示しています。

身体化された知能に興味がある場合は、研究チームの論文を読んで詳細を確認してください。

論文アドレス:
https://arxiv.org/abs/2309.12300
GitHub プロジェクト ページ:
https://github.com/irmakguzey/see-to-touch

おすすめ

転載: blog.csdn.net/QbitAI/article/details/133532320