ロボットの「頭脳」を搭載、GoogleがRT-2大型モデルを発売

大きな言語モデルは、アプリケーションをよりスマートにするだけでなく、ロボットが 1 つのインスタンスから推論を引き出すことを学習できるようにします。GoogleがRT-1大型モデルをリリースしてからわずか半年後、このほどロボットにインターネット上の文字や画像を学習させ、論理的推論能力を持たせるロボット専用の大型モデルRT-2が登場した。

このモデルはロボットの知能に大幅なアップグレードをもたらします。ロボットが経験したことのないシナリオであっても、RT-2 は指示に従ってタスクを完了できるように学習します。

たとえば、Google DeepMind のロボット工学担当ディレクターである Vincent 氏は、以前のロボットがゴミを捨てる場合、ゴミとは何か、ゴミを拾う方法、どこに捨てるかを理解するために特別な訓練を受ける必要があると述べました。RT-2 は、ネットワーク データからガベージを特定して処理する方法を学習できるため、異なるシナリオを 1 つずつトレーニングする必要はありません。

AIの発展により、ロボットの「脳」は種の進化のような反復を可能にしましたが、その一方で、ロボットが制御不能になるリスクも増大しました。

ロボットの自律学習を実現する大型モデルRT-2

ChatGPT の人気により、大きな言語モデルの力が世界に認識されるようになりました。人々はもはや大きなモデルに慣れておらず、描画、描画、情報の検索、プロットの設計などに大きなモデルに基づいたアプリケーションを使用し始めており、魔法の用途はこれに限定されません。Googleは大きな脳穴を持っており、ロボットが独立して学習できるように特別にロボット用の大きなモデルを構築した。

少し前に、Google の DeepMind は、Robotics Transformer 2 (略して RT-2) と呼ばれる新しい視覚言語アクション (VLA) モデルをリリースしましたが、これはロボットの専用脳に相当し、ロボットが視覚と言語を認識できるように導くことができます。指示を理解し、正しい操作を行ってください。

Googleによると、RT-2はTransformerモデルに基づいて開発され、インターネット上のテキストや画像に従って訓練され、ロボットに動作を直接指示する。人間の知識を学習するためにテキストを使用して大規模な言語モデルをトレーニングするのと同じように、RT-2 はロボットにネットワーク データを供給して、ロボットの動作をガイドできます。

RT-2の機能を実証するために、GoogleはRT-2を搭載したロボットがこれまで訓練されたことのないタスクを実行するデモンストレーションビデオを公開した。

このビデオでは、テーブル上にランダムに置かれた物体の山に直面しており、RT-2 モデルを搭載したロボット アームは人間の言語を理解し、それに応じて応答します。

たとえば、「絶滅した動物を拾って」と命令すると、ロボットアームはライオン、クジラ、恐竜の 3 つのプラスチックのおもちゃから正確に恐竜を選択し、2+1 の合計にバナナを入れるように命令すると、ロボットアーム バナナを数字の3の位置に直接置き、ボウルにイチゴを入れると、ロボットはリンゴ、オレンジ、その他の果物を無視して正しいイチゴを選ぶことができます。

ただし、デモではロボットがミスをしたり、ソーダの味を正確に識別できなかったりするなど、まだまだ最適化の余地が大きいように感じられた。

 RT-2を搭載したロボットは人間の指示に従って動作します

たとえ完璧ではないとしても、自律的にタスクを理解し、推論し、実行するロボットの能力は大きな進歩です。

DeepMind のロボット テクノロジ担当ディレクターの Vincent 氏は、「ゴミを投げる」という一見単純な操作を例に挙げました。以前のシステムにゴミを捨てる動作を実行させたい場合は、ゴミを認識して処理するように明示的にトレーニングする必要があります。 RT-2 は、大量のネットワーク データから学習し、ゴミが何であるかを理解し、特別なトレーニングなしでそれを認識できます。運動に関する訓練は受けていないが、ゴミの捨て方は習得できる。「ポテトチップスの袋や食べたらゴミになるバナナの皮のようなゴミの抽象化を考えると、RT-2 はこの概念を理解し、視覚言語トレーニング データを使用してタスクを完了することができます。

RT-2 はロボットに認知能力を与え、インターネット上で学習して改善し、一般的な推論も可能にしました。ロボット業界にとって、これはまさに種の進化に他なりません。

加速するロボットの進化は AI の安全性の最終ラインに影響を与える

実際、Googleがロボットに脳を搭載しようとしたのはこれが初めてではない。ちょうど昨年 12 月、Google は RT-1 大型モデルをリリースしました。このモデルは、ロボットの入出力アクションにラベルを付け、実行時に効率的な推論を実現し、リアルタイム制御を可能にします。

RT-1 モデルは、17 か月間にわたって 13 台のロボットによって収集された、700 以上のタスクをカバーする 130,000 の「シナリオ」からなる大規模な現実世界のロボット データセットでトレーニングされました。つまり、大型モデルRT-1は、他のロボットが過去に蓄積した経験を1台のロボットに学習させ、それに応じた能力を持たせることができるのです。

 RT-1 大型模型論文

当時Googleは、RT-1を搭載したロボットに、物を選ぶ・置く、引き出しの開閉、引き出しの出し入れ、細長いものを立てる、物を倒す、などの一連の複雑な動作を依頼した。ナプキンを取り出して瓶を開けます。チームによると、RT-1 は 97% の成功率で 700 以上のトレーニング命令を実行し、新しいタスクに一般化しました。

ただし、具体的に研究されていないシーンについては、RT-1 が推論に基づいて単独でタスクを完了することは依然として困難です。テストによると、不慣れな場面での操作の正解率はわずか 32% です。

当時のRT-1がまだ「教えられたことを学ぶ」小学生だったとすれば、RT-2は事例から推論を導き出すことができる中高生に成長していた。これまでにない新たなシーンで、RT-2の性能はRT-1の32%から62%とほぼ2倍に向上しており、現時点ではRTの発売から半年以上しか経っていません。 -1。

Google DeepMind のロボット工学担当ディレクターである Vincent 氏は、RT-2 は RT-1 モデルを基にして構築されており、複雑さの一部が取り除かれているため、単一のモデルで基本モデルに見られる複雑な推論を実行するだけでなく、ロボットのアクションも出力できるようになると説明しました。 。最も重要なことは、少量のロボット トレーニング データを使用して、システムが言語および視覚トレーニング データに埋め込まれた概念を、トレーニングされていないタスクであっても、ロボットの動作をガイドするものに変換できることを示したことです。「要するに、情報を行動に変換する RT-2 の能力は、新しい環境や状況に迅速に適応する可能性を示しています。」

大型モデルの急速な進歩により、ロボット業界は質的な変化を迎えており、Google のイテレーション速度によると、おそらく来年にはさらに強力な RT-3 が登場するでしょう。

ロボットを研究しているのは Google だけではなく、Tesla もロボットに非常に興味を持っていますテスラは今年5月、周囲の環境を検知して品物の仕分けなどの作業を行う多数のセンサーを備えた5台の人型ロボットが工場内を直立して歩く動画を公開した。テスラのロボットも AI の道を歩んでおり、電気自動車メーカーのマスク CEO は、テスラは電気自動車の運転支援ソフトウェア (FSD) システムと人型ロボットの基礎となるモジュールを接続しようとしていると述べました。ロボットの IQ はオンラインです。

そして、後続のテスラロボットがRT-2やさらに進化した大型モデルと接続できれば、ロボットの能力は大幅に向上することが期待される。

しかし、ロボットがますます賢くなることで、AI が制御不能になるのではないかという懸念も悪化しています。大型モデルのソフトウェア アプリケーションは、オンライン学習において人間の思考や世論を操作する可能性があり、金属殻を備えた人型ロボットは直接的に物理的致死性を持っています。

誰かがソーシャルメディアで「人間は自分の手でパンドラの箱を開けたのだろうか?」と尋ねた。

ロボットをどのように訓練するかは依然として大規模モデルのセキュリティという古い問題に戻っていますが、この問題は世界的な研究および応用分野でまだ合意に達していません。

テクノロジーの向こう側にある未知の危機はいまだ解決せず、AIの頭脳を搭載したロボットの登場に期待しますか、それとも警戒しますか?

おすすめ

転載: blog.csdn.net/MBNews/article/details/132056386