2022 年のテスラ技術共有

自動操縦: 車両が車線を維持したり、前の車両に追従したり、コーナーで速度を落としたりすることができ、駐車場から市街地、高速道路まであらゆる運転状況に対応できます。

1. ハードウェア:

これらのニューラル ネットワークの実行には、8 台の 120 W ピクセル カメラ、1 秒あたり 36 フレーム、360 度の空間、および内蔵の 144 Tops (1 秒あたり 1 兆回の演算) コンピューティング プラットフォームが使用されます。

LIDAR、ミリ波、超音波、高精度マップは必要なく、リアルタイム カメラに基づいています。

 

図 1 ハードウェア図

2. 障害物検出

2.1 障害物の表現

図 2 画像空間のレンダリング

画像空間のセグメンテーション: ピクセル単位のセグメンテーション (運転中または非運転中) には問題があります: 1> 知覚は画像内で行われ、3 次元空間に変換すると不要なノイズが発生します。2> 完全な 3D 構造を提供することができないため、シーンをブロックする可能性のあるすべての吊り下げられた障害物、壁、またはその他の物体について推論することは困難です。

図 3 深度モデリングのレンダリング

深度モデリング: すべてのピクセルに深度があり、カメラ レイを使用して 3D 空間、高密度深度マップに反転します。問題を解決します: 1> 短距離は優れていますが、長距離は一貫性がなくなり、後続のプロセスで使用するのが困難になります。例: 壁が真っ直ぐではなくねじれている; 2> 地面に近く、点がほとんどないため、障害物を回避するための合理的なロジックを書くのが難しい; 3> 2D 深度から 3D 空間への変換の問題、各カメラが深度マップを生成する, 車の周囲に統一された三次元空間を生成するのは難しい。

図 4 ポゼッションネットワークのレンダリング

ソリューション -> 占有ネットワーク:

8 台のカメラ ストリームを入力として受け入れ、車の周囲の空間の体積占有率を生成します。各ボクセル (または車の周囲の各位置) について、ネットワークはそのボクセルが占有されているかどうかの結果を生成します。実際、そのボクセル (または 3D 位置) が占有されているかどうかの確率値を生成します。ネットワークはすべての内部センサーの融合を完了し、単一の出力スペースを生成します。壁や木などの静的オブジェクトの占有値を生成します。また、場合によっては車などの動的オブジェクトも生成できます。道路上の瓦礫など、他の動く障害物も含まれます。出力は 3D 空間にあり、曲線の存在を予測できます。高密度の 3D 占有値を生成し、大きく見えますが、重要な場所に解像度を分散するため、計算効率が高くなります。画像には距離に関する問題がありますが、占有ネットワークでは、解像度は運転に関連するすべてのボリュームでほぼ一貫しています。

速度: 10ms、100HZ未満、画像を生成するカメラよりもはるかに高速です。

図 5 複数のカメラ ストリーム、魚眼カメラ、正面を向いた広角。左列カメラ、カメラは左向き。

図6 保有ネットワーク構成図

2.2 ネットワーク技術ソリューションの保有

所有ネットワークの全体的なネットワーク構造:

  • 入力: 複数のカメラ (魚眼、通常のカメラ)、最初に正規化してセンサー自体の制限 (例: 内部キャリブレーション、画像の歪み、同様の要因) を除去します。
  • 特徴抽出: RegNet と BIFPN は、画像の特徴を抽出するために使用されます。
  • 3D 占有ボクセルの生成: 数年前の「占有ネットワーク」と同様、クエリによるクエリ スキーム。一連の 3D ポイントをクエリして、3D ポイントが利用可能かどうかを判断します。3D 位置エンコーディングを受け入れ、それを各画像空間の特性に関与する固定クエリにマッピングします。画像空間には位置情報も埋め込まれています。3D クエリは、すべての画像ストリームの画像空間クエリに参加し、3D 占有特徴を生成します。
  • アップサンプリング: これらは直接計算することが難しい高次元の特徴であるため、これらの高次元の特徴は低解像度で生成されます。アップサンプリング技術を使用して、より高密度の高解像度の占有値を生成します。

図 7 動的か静的か? 一部の悪いケースには明確な境界がなく、オブジェクトのカテゴリの区別が影響を受けます。歩行者は「ゴミ」に見え、プラスチックは歩行者に見えます。

動的オブジェクト VS 静的オブジェクト: 占有ネットワークを使用する最初の目的は、木や壁などの静的障害物に対処することです。これは、さまざまなタイプの障害物を処理するために車内で異なるニューラル ネットワークが実行されているためですが、定義するのが難しいためです。明示的なツリー。動的ネットワークでは他のフレームワークが使用されますが、図 5 のような動的および静的問題が発生します。

解決策は、同じフレーム内に移動障害物と静止障害物の両方を生成し、移動障害物と静止障害物の隙間で何かが逃げたり変形したりするのを防ぐことです。完全に静止している物体は、力を加えると変化するものは存在しません。

図 8 占有ネットワークへの動的ネットワーク検出の追加

占有フロー: 図 8 に示すように、元の静的オブジェクト検出フレームワークには動的オブジェクト検出が追加されていますが、これらのオブジェクトは占有値によって区別されません。その後の制御戦略に役立つ追加の意味分類が存在する場合があります。純粋な占有値に関する限り、特定のスペースが占有されている理由は区別されず、瞬間的な占有値のみが得られます。しかし、これだけでは十分ではありません。瞬間占有値は速度と障害物の種類に関係します。将来のさまざまな時点での占有値はどうなるでしょうか? 例: 車の後続シーン。したがって、占有値の予測に加えて、占有フローも予測されます。このフローは、時間に関する占有値の一次導関数であることも、より正確な時間の流れを予測する高次導関数であることもできます。占有値のストリームを生成するには、いくつかの時間ステップを入力として受け取ります。タイム バッファーからすべての異なる占有値特徴を抽出し、これらの占有値特徴を一貫した統一座標系に調整し、同じサブサンプリング手法を使用して占有値と占有値ストリームを生成します。  

図 9 占有値と占有値フローの効果、占有値フローを追加したモデル効果、赤色の走行方向は同じ、緑色の走行方向は逆、地面にゴミ箱があります。

図10 未知のカテゴリーの障害物が出現

図 11 未知の形状が表示される

占有フローの利点: 1> 障害物の分類によって引き起こされる問題を直接回避. 図 10 に示すように、未知のタイプの車がいくつかありますが (そのうちの半分だけが露出しています)、これは制御にとって重要ではありません。通常、移動するオブジェクトを表現するには立方体や多角形が使用されますが、オブジェクトによっては、図 11 に示すように、ネットワークを占有することで、複雑なネットワーク トポロジを必要とせずに、未知の突起 (任意の形状) をもつ形状を取得できます。制御技術スタック 、幾何学的情報を使用してオクルージョン状況を推論します。車は木や道路によってブロックされていることを認識し、さまざまな制御戦略を使用してこの問題に対処し、このオクルージョン関係を排除します。3次元空間情報のため、どれくらいの速度・距離が当たるのかが分かります。車両を制御して前進し、障害物を探します。この占有ネットワークは、さまざまな方法で制御スタックを改善するのに役立ちます。

図 12 フリートの NeRF

図 13 現実世界で NeFR を実行する場合の問題点

図 14 セマンティック保護の追加の RGB 概略図

ニューラル放射輝度場: オキュパンシー ネットワークは、多視点画像からシーンを再構築しようとするニューラル放射輝度場法の拡張です。シーンは通常、単一点の複数の画像から再構成されます。フリートから任意の移動を選択し、適切なキャリブレーションおよび軌道推定テクノロジー スタックを備え、これらを使用して経時的に正確な複数のカメラ ルートを生成し、最新の NeFR モデルを実行して 3D 状態を通じて微分可能なレンダリング イメージを生成し、高品質の 3 つの画像を生成します。次元の再構築。オリジナルの NeRF は、単一のニューラル ネットワークを使用して 3 次元シーン全体を表現します。最近の作品である Plenoxels は、ボクセルを使用してそれを表現します。また、ボクセル (小さな mlps ボクセル) またはその他の連続表現を使用して確率を補間し、微分可能なレンダリング イメージを生成することもできます。現実世界で NeFR を実行すると、主に光の屈折、反射、霧、雨などの問題がいくつか発生します。解決策は、局所的な照明アーティファクトの影響をある程度受けない、より高いレベルの記述子を使用することです。RGB 自体には多くのノイズが含まれており、rgb に記述子を追加すると、rgb 値の変更に対するセマンティックな保護を提供できます。

図 15 NeRF 監視を追加した占有ネットワーク

NeRF による占有ネットワークの最適化: 差分レンダリング アーキテクチャ NeRF は、占有ネットワークの出力の損失関数として使用されます。これらの占有ネットワークでは占有値を生成するために複数のショットが必要なため、完全な NeRF 最適化を実行することはできません。テスラは、自動車が走行中に受け取るすべてのセンサー観測を考慮した占有値を確実に生成する、合理化され最適化されたバージョンを考案しました。もちろん、トレーニング段階でこの種の監督を行うことも役立ちます。さらに、さまざまなセンサー データのホールドアウト画像の差分レンダリングを通じて監視を行うこともできます。このタイプの監視では、移動の時間制限による占有値だけでなく、占有値も監視できます。

2.3 衝突を避ける

図 16 オートパイロットは運転の危険を回避します

スロットルとブレーキの混乱: 自動操縦で回避可能

自動運転: 安全、快適、適度に速い

図10 車両の状態と衝突確率の予測

事前に減速するには、衝突が起こる何秒も前に衝突が避けられるか避けられないかを予測し、着実にブレーキをかけて安全かつスムーズに衝突を回避する必要があります。

検索ベースの方法は、検索スペースが広く、速度が遅いため、自動車がリアルタイムで走行している場合、このような計算を完了するのに十分な時間がありません。

テスラは近似計算にニューラル ネットワークを使用し、障害物回避をエンコードするために最近登場した暗黙的フィールド (暗黙的フィールド) を使用します。占有値は以前のネットワークから取得され、極度に圧縮された多層パーセプトロン (MLP) にエンコードされます。この MLP は、特定のクエリ状態で特定の衝突を回避できるかどうかを暗黙的に示すために使用されます。ここで明示されるのは、車の位置、方向、速度、横方向および縦方向の加速度です。車の現在の状態を考慮して、衝突の確率が与えられます。たとえば、2 秒、5 秒、または特定の時間範囲内で衝突を回避できるでしょうか。ネットワークは、数マイクロ秒以内に衝突が発生するかどうかのおおよその確率を迅速に問い合わせることができます。

図 11 自動衝突確率。緑は安全、黒は障害物、灰色は路面、赤は衝突エリアです。それは車の現在の方向と速度に関係します。

クルマ自体はある程度の大きさを持っており、クルマが回転して周囲の障害物と結合することで衝突フィールドが変化する。

道路の方向に合わせて車両の方向が変わると、車線が開き、緑色に変わり、車両が衝突していないことを意味します。

車速や制動時間が変化すると、衝突フィールドも変化します。

車は必要に応じて介入し、ステアリングやブレーキをかけて衝突を回避します。

要約:

1. 複数のカメラと画像フレームを使用して、高密度の占有値または占有値のストリームを生成する方法を示します。

2. 自動視覚的注釈に加えて、フリートの多数のマルチビュー制約を監視に使用する方法を簡単に示します。

3. 占有値が取得されたら、それを他のニューラル ネットワークに適用して大学の衝突回避フィールドを生成できます。

4. 車は決して衝突しない。

関連論文:

1.《占有ネットワーク: 機能空間における3次元再構成を学ぶ》 CVPR2019

Github:https://github.com/autonomousvision/occupancy_networks

2.NeRF: ビュー合成のためのニューラル放射フィールドとしてシーンを表現

3. プレノセル: ニューラル ネットワークを使用しない放射フィールド

次の 2 つの側面に注意してください。

  • 入力、出力、注釈
  • ネットワーク構造

おすすめ

転載: blog.csdn.net/qq_37424778/article/details/128704445