トレーニング速度が 300 倍に向上、Niantic の最新 VPS 視覚測位ソリューションが発表

近年、Google や Niantic などの推進により、AR アプリケーションにおける視覚的測位の重要性がますます明らかになり、特に屋内ナビゲーション シナリオでは測位精度が従来の GPS ソリューションを上回る可能性があります。視覚的位置決めと深度視覚的マップ構築の精度をさらに向上させるために、Niantic Labs は CVPR 2023 中に ACE スキーム (加速座標エンコーディング) を発表しました。中国語の直訳は加速座標エンコーディングであり、より効率的な視覚的位置決めを実現できると主張しています。効果。

無名 (3)

実際、視覚的再局在化テクノロジは数十年前から存在しており、従来のソリューションでは、画像内のキー ポイント (コーナーの輪郭) を識別してマップを構築し、まばらな点群に基づいて 3D モデルを生成します。再位置推定フェーズでは、従来のソリューションは 3D 点群に基づいてマップ内のキー ポイントを読み取り、カメラの位置に基づいて 3D マップを環境画像と位置合わせします。現段階では、機械学習とニューラル ネットワークがコンピューター ビジョンの分野で広く使用されており、ニューラル ネットワークは、より適切なキー ポイントを見つけたり、画像と地図のマッチング結果を向上させるためによく使用されます。

従来の DSAC* スキームを上回るパフォーマンス

より一般的に使用されている視覚的位置決めスキームは DSAC* (微分可能サンプル コンセンサス) に基づいており、精度が高いという利点がありますが、ネットワーク モデルのトレーニングに数時間から数日かかるという欠点があります。DSAC* は一度に 1 つのマップされたイメージしか処理できず、多くの冗長な計算が必要となるため、シーンをマップするのに約 15 時間かかります。

Niantic: Lightship VPS 測位が従来のソリューションより 300 倍速い理由

これはほとんどの AR アプリケーションにとって非現実的であり、拡張には非常にコストがかかります。対照的に、ACE ソリューションは正確な視覚的位置決めを達成するのにわずか 5 分しかかかりません。これにより、精度を維持しながらネットワーク トレーニング速度を 300 倍向上させることができます。

ezgif-5-f2689e79cc

簡単に言うと、Niantic はニューラル ネットワークをトレーニングして世界がどのように見えるかを学習し、それをカメラと組み合わせて高精度かつ低コストの再位置推定を実現します。ACE リローカライザーは Lightship VPS システムで 1 年以上使用されていると報告されており、世界中ですでに 200,000 の地域で VPS 再配置がサポートされており、従来の測位技術とうまく組み合わせることができます。

アクティブ ラーニング マップ

従来のソリューションとは異なり、ACE は物理的なシーンをよりよく理解し、3D マップを完全に使用してニューラル ネットワークを置き換えることができます。

現実的で信頼できる AR は、高精度の位置決めに依存してユーザーのデバイスの位置と視点を決定し、仮想コンテンツを所定の位置に固定して物理的なシーンと融合させます。ユーザーが数か月後にコンテンツを再訪問した場合でも、同じ場所で見つけることができます。

無名 (4)

理想的には、GPS センサーと IMU センサーの精度は数メートルに達しますが、AR には十分な精度が得られず、誤差はセンチメートル レベルまで低減する必要があります。ACE は、マップの作成を数分で完了し、再ローカリゼーションを数ミリ秒で高精度に完了します。プログラムの再配置は主に 2 つのフェーズに分かれています。

1) 既知の姿勢を持つ画像のコレクションから環境の 3D マップを構築します (マッピング段階)。

2) 新しいクエリ/訪問画像を 3D マップと照合して、正確な位置と姿勢、つまり再位置特定フェーズを決定します。

ezgif-2-3c62ebc353

ACE は、ニューラル ネットワークを、マップされたすべての画像と一貫性があり、点群の再構築を必要としない 3D マップに完全に置き換えます。新しい画像クエリ タスクが与えられると、ニューラル ネットワークはシーン空間内の各ピクセルの対応する点を正確に伝え、対応を調整することでカメラのポーズを推測します。

ACE で使用されるニューラル ネットワークは、わずか 4 MB のメモリでマップ全体を表現できるほど軽量で、単一の GPU では最大 40 fps、一般的なスマートフォンでは 20 fps の速度で実行されます。

また、ポーズデータを含むRGB画像から3Dシーンの生成とニューラルマップの作成にかかる時間はわずか5分で、RGB画像のフレームからカメラの姿勢を推定して位置を変更することも可能です。

なぜACEは速いのでしょうか?

DSAC* は、10 年前に提案された手法であるシーン座標回帰フレームワークに基づいています。さらに、一度に 1 つのマップ画像ごとにシーンの再投影誤差を最適化する 2 段階のトレーニングが必要です。画像は学習用に多数のピクセルを提供しますが、損失や勾配と同様に、高度な再投影誤差が発生します。

最大解像度デフォルト (12)

対照的に、ACE はピクセル レベルのフレーム補間エラーを減らすためにトレーニングするだけでよく、画像の損失に対処することなく、マップされたすべての画像のマップを同時に最適化できるため、トレーニング効率が高くなります。

最終的な最適化は非常に安定していると Niantic は述べています: ACE を 5 分よりも早くトレーニングして、まだ使用可能な結果を​​得ることができます。トレーニング時間はさらに 10 秒に短縮されます (データ準備の 20 秒は含まれません)。

ACE は大規模な屋外シーンに非常に適していますが、メモリ フットプリントと短いマッピング時間により、その機能がある程度制限されることに注意してください。したがって、Niantic は大きなシーンを小さなチャンクに分割し、チャンクごとに ACE モデルをトレーニングします。再局在化中に、各 ACE モデルは個別にポーズを推定し、インライア カウントが最も高いモデルを選択します。複数の GPU を同時に使用できる場合、ACE モデルのトレーニングをより速く行うことができます。参考:ナイアンティック

おすすめ

転載: blog.csdn.net/qingtingwang/article/details/131708318