ロボットに人間の「常識」を理解させる、3D セマンティック マップはそれができるでしょうか?

ロボットには乳母レベルのマップが必要です。

インターネットからの写真

ロボットのインテリジェント技術が進歩し続けるにつれて、複雑な行動の決定や人間とコンピューターの相互作用などのタスクを実行するには、環境の空間幾何学的情報を認識するだけではもはや十分ではなくなり、ロボットは環境内のオブジェクトの種類を理解する必要があります。環境とその場所、つまり環境の意味情報。床掃除ロボットを例に挙げると、ダイニングテーブルの底を掃除するタスクでは、掃除対象のカテゴリと場所を認識する必要があります。しかし、現在主流となっている伝統的な 2D グリッド マップとトポロジー マップは、環境内の障害物の幾何学的特徴とその環境構造情報を記述することはできますが、ロボットが環境、人間、機械、物体を理解するための高度なビジネス ロジックを欠いています。それに対して、3D セマンティック マップには、物体や環境の構造情報だけでなく、物体のカテゴリや機能的属性などの「常識的な」情報も含まれています。ロボット用のマップ。

技術的な観点から見ると、3D セマンティック マップのマップ モデルは、地域シーン情報とシーン内の各独立したオブジェクトの属性、空間内の 3D モデル、ポーズ情報を含む、実際のシーンの 3D 環境を再構築したものです。 、など、ロボットが意味レベルで環境情報を理解し、人間の脳が環境を理解する方法を模倣し、より高いレベルの知的操作のための情報サポートを提供します。

3D セマンティック マップを構築するにはどうすればよいですか?

3D セマンティック マップを構築するには、必要なオブジェクトの特徴を抽出し、セマンティック セグメンテーションを実行することが前提となります。INDEMINDは、3Dセマンティックマップの構築を実現する際にステレオビジョンテクノロジールートを採用し、両眼視覚センサーによって取得された3D視点群情報をクラスタリングし、エッジエンドで埋め込みディープラーニングとVSLAMアルゴリズムを組み合わせて、個性的なオブジェクトセマンティクスと地域を出力します。 3D セマンティック マップ構築を実現するシーン セマンティクス。

現実のシーンでは、家族、会社、スーパーマーケットなど、多くの場合3つ以上の細分化されたシーンがあり、それらのシーンのほとんどは類似性を持っています。さまざまな部屋の機能属性、対応する部屋の検索、さまざまな部屋の機能属性に応じたパーソナライズされた操作の実行にも、非常に高い精度のシーン理解が必要です。

したがって、INDEMIND は、出力された地域シーンのセマンティクスと個々のオブジェクトのセマンティクスの融合に基づいてシーンの理解を実現します。まず、取得された地域シーンの意味情報に基づいて全体的な特徴認識が実行され、次に、個々のオブジェクトの意味認識に基づいて、シーン内の一連の独立した個別情報が認識され、シーンの特徴マークとして使用され、最終的に判断されます。 2相重ね合わせにより、正確で安定したシーンの理解を実現します。

実際のパフォーマンスでは、3D セマンティック マップを INDEMIND VSLAM アルゴリズムおよびインテリジェントな意思決定エンジンと組み合わせて使用​​するロボットは、AI 認識、インテリジェントな障害物回避、コマンド インテリジェントな操作、および人間とマシン/オブジェクトとマシンのインタラクションにおいて優れたパフォーマンスを発揮します。

AI認識と障害物回避に関しては、3Dセマンティックマップに基づいて環境内のさまざまな画像特徴を迅速に抽出でき、ディープラーニングと組み合わせることで、歩行者、動物、固定/移動物体などの個々の障害物を3次元で識別できます。階段やエスカレーターなどの危険なシーンを回避するために、物体の3D情報と組み合わせた識別と障害物回避効果の安定性と精度が大幅に向上しました。同時に、ディスプレイに合わせた障害物の3D情報を認識することで、人間の回避動作と同様の緻密な動作も可能となり、予測的かつ戦略的に障害物を積極的に回避することが可能となります。

障害物検知表示

インタラクションとインテリジェントな操作に関しては、3D セマンティック マップがシーン内の独立した個人と部屋情報に対して意味認識とオブジェクトのセグメンテーションを実行し、ロボットが人間の「常識」を理解した上で、高度なインタラクション ロジックを実現し、INDEMIND と連携することができます。インタラクティブ技術は、音声、ジェスチャー、アクションの指示を通じて、ロボットに安全性、探索、追跡、自律経路探索、方向清掃などのさまざまなインテリジェントな操作ロジックを実行するよう命令できます。指向性掃除を例に挙げると、「寝室を掃除してください」という音声コマンドを発行すると、マップ上で特定された寝室エリアの計画的な掃除として認識され、大まかなインタラクティブなエクスペリエンスに別れを告げることができます。

現在、3Dセマンティックマップ技術は、INDMEINDの家庭用ロボットナビゲーションソリューション「家庭用ロボットAIキット」と業務用ロボットナビゲーションソリューション「商用ロボットAIキット」に適用されており、両ソリューションの市場実績はお客様から広く認められております。

視覚テクノロジーを使用しているため、2 つのソリューションには競合製品と比較してコストの面で明らかな利点があることは注目に値します。「家庭用ロボットAIキット」は、レーザーレーダーフュージョンソリューションの1/3のコストで同等の技術効果を実現しており、レーザービジョンフュージョンソリューションもシーン内の意味情報を取得できるものの、実際には、物体の 2 次元情報しか認識できず、3D 意味マップを構築することはできません。LIDARソリューションと比較して、「商用ロボットAIキット」のコストは60~80%削減され、ロボット開発の最低コストは2,000元未満に下げることができ、ナビゲーションやバッテリーを含む完全なシャーシのコストも削減できます。ロボットの開発コストとサイクルを大幅に削減できます。

おすすめ

転載: blog.csdn.net/weixin_43922139/article/details/132227511