HydraNet - テスラの自動運転のための強力な人工知能ニューラル ネットワーク モデル

テスラのオートパイロットは、自動運転車の最も重要な機能から、車線の検出、歩行者の追跡、信号灯の認識などに至るまで、間違いなく現在最も高度なコンピューター ビジョン システムであり、すべての道路情報をカバーし、各状態を予測する必要があります。そのため、テスラは「テスラ ビジョン」カメラで構成された認識システムをリリースしました.テスラの新しいコンピューター ビジョン システムには、8 台のカメラしか搭載されていません.この純粋なコンピューター ビジョン アプリケーションは、レーダーを使用しない世界で唯一のアプリケーションの 1 つです。自動運転会社!

下のビデオから、Tesla のコンピューター ビジョン システムを見ることができます。車両の周囲にある 8 台のカメラ (左、車の周囲の画像を収集) は、ニューラル ネットワーク (右、最終車線情報を生成) を介して 3 次元の「ベクトル空間」を生成し、線、エッジ、道路の端、交通標識、信号機、車、車の位置、方向、深さ、速度などの情報、およびこれらの実現は、Tesla の 8 台のカメラと自動運転システムによってのみ実現されます。その中でも自動運転システムにおいて最も重要なのは、8台のカメラで収集した画像情報を処理するニューラルネットワークモデルのトレーニングです。

 コンピュータビジョンが最初に研究されたとき、人々は人間の視覚系にも言及しました. 目で収集された情報が網膜に到達すると、大脳皮質の複数の領域と神経層を通過し、最終的に生物学的視覚を形成します.脳内でイメージを生成します。コンピュータ ビジョン システムは、この設計を参照して、現在のコンピュータ ビジョン ニューラル ネットワーク システムを設計します。コンピュータ ビジョン タスクでは、オブジェクト検出は一般に次の一般的な構造を持ちます。

入力→背骨→首→頭→出力

バックボーン: 特徴抽出ネットワークを指し、1 つの画像内の複数のオブジェクトを識別し、オブジェクトの豊富な特徴情報を提供するために使用されます。バックボーン ネットワークとして、AlexNet、ResNet、VGGNet をよく使用します。

検出ヘッド: 特徴抽出 (バックボーン) の後、入力の特徴マップ表現を提供します。オブジェクトの検出、セグメンテーションなど、いくつかの実用的なタスク用。私たちは通常、機能マップに「検出ヘッド」を適用するので、バックボーンに取り付けられたヘッドのようなものです。

首: 首は体幹と頭の間にあり、細かい特徴を抽出するために使用されます。(例: フィーチャー ピラミッド ネットワーク (FPN)、BiFPN)

当初、ターゲット検出タスクで、Tesla は AlexNet、VGG、ResNet、DenseNet、その他のニューラル ネットワーク バックボーンなど、手動で設計されたネットワークを使用しました。その後、データの規模とネットワークの深さが増すにつれて、関連するテスラの研究者は、手動のネットワーク設計を置き換えるために半自動ネットワーク設計と自動ネットワーク設計を使用することを検討し始めました。

新しいニューラル ネットワーク Regnet (通常のネットワーク構造) は、2020 年の Facebook 人工知能研究 (FAIR) の論文 Designing Network Design Spaces で提案されました。ニューラル ネットワーク バックボーンによって処理された後、RegNet はさまざまなスケールと解像度の複数の機能を提供します。この特徴抽出ネットワークでは、最下部では非常に高い解像度と非常に少ないチャネル数があり、上部では多くのチャネル数と低解像度があります。したがって、下部のニューロンは画像の詳細を調べるために使用され、上部のニューロンはシーンのコンテキスト (意味) 情報を理解するために使用されます。

テスラがニューラル ネットワークのバックボーンとして Regnet (通常のネットワーク構造) を使用しているのは、RegNet ニューラル ネットワークの特徴です。

Hydranets - テスラのクレイジーなニューラル ネットワーク

検出ヘッド部分については、Tesla は車線検出、人の検出と追跡、信号光の検出など、ニューラル ネットワークで多くのタスクを検出する必要があるため、これまでのコンピューター ビジョン タスクでは、最終的にニューラル ネットワークは 1 つしかありません。 1 つの出力ヘッド、物体検出またはインスタンス セグメンテーションなど。明らかに、自動運転システムでは、このようなニューラル ネットワークはあまり実用的ではなく、複数のニューラル ネットワーク モデルを同時に実行して自動運転システムを制御することはできません。この場合、ニューラル ネットワーク間で問題が発生しやすく、コンピュータ ビジョン システムが対処することも困難です。

Tesla はこれらのタスクを新しいアーキテクチャに統合し、共通の共有バックボーンを複数のヘッドに分岐させました。このアーキテクチャは HydraNets と呼ばれます。もちろんHydraネットワークと呼んでも、出力が9頭だけというわけではなく、結局のところ、自動運転のコンピュータビジョンタスクは9頭では処理できません。

1. 8 つの画像すべてが最初に画像エクストラクタによって処理されます。このために、ResNet のようなアーキテクチャである Regnet (通常のネットワーク構造) が使用されます。

2. 次に、マルチカメラ フュージョンがあります。アイデアは、8 つのイメージすべてを 1 つのスーパー イメージに結合することです。この目的のために、HydraNets は変圧器のようなアーキテクチャを使用します。

3. 時間融合。アイデアは、ニューラル ネットワークに時間を取り込んで、超像を以前のすべての超像と融合させることです。このために、N 個の画像のビデオ キューがあります。たとえば、融合に 2 秒を使用したい場合、カメラが毎秒 30 フレームで動作していると仮定すると、N は 60 になります。時間的融合は、3D CNN、RNN、または Transformer を使用して行われます。

4. 最後に、出力は HEADS に分割されます。

1 つの注意点: 上の図でわかるように、ニューラル ネットワーク モデル全体が左右の部分に分割されています。これは、実際にニューラル ネットワーク モデルが 2 つのチップで並列に実行される方法です。

テスラのTPU

HydraNets には 3 つの主な利点があります

機能の共有: 畳み込み計算の繰り返しを減らし、バックボーンの数を減らし、テスト中に特に効率的です

タスクの分離: トランクから特定のタスクを分離し、タスクを個別に微調整できるようにします。

表現のボトルネック: トレーニング中にフィーチャをキャッシュし、微調整ワークフローを実行するときに、キャッシュされたフィーチャのみを使用して頭を微調整します。

HydraNet トレーニング ワークフロー:

1. すべてを一緒にトレーニングするエンドツーエンドのトレーニングを実施する

2. マルチスケール フィーチャ レベルでフィーチャをキャッシュします。

3. キャッシュ機能を使用して、特定のタスクごとに微調整する

4. エンド ツー エンドのトレーニングを再度行い、反復します。

下の図は、HydraNet のバージョンで単一の画像を処理することによって得られたいくつかの予測を示しています。

 

また、Tesla はニューラル ネットワークをどのようにトレーニングしていますか? ハイドラネットのトレーニング方法は?

テスラ チームによると、GPU で 48 ヘッドのニューラル ネットワークをトレーニングするには 70,000 時間かかります。ほぼ 8 年間、この問題を解決するために、Tesla チームはトレーニング モードを「ラウンド ロビン」モードから「ワーカーのプール」モードに変更しました.これにより、トレーニング時間が大幅に短縮され、HydraNets ニューラル ネットワークからわかっています。アーキテクチャと同様に、Tesla は並列処理にデュアル MCU アーキテクチャも使用しています。

Transformer モデルは、NLP および画像ビデオの分野で最も重要なモデル フレームワークとして、近年ますます注目を集めています. Transformer モデルは NLP 分野で設計されたばかりですが、VIT モデルのリリースとSWIN モデル、Transformer モデルは CV コンピュータ ビジョンの分野にも有効に適用されるため、Transformer モデルは CV 分野でもタスク処理を実行できます。

更多Transformer模型VIT 模型SWIN Transformer模型参考头条号:人工智能研究所

VX検索アプレット: AI 人工知能ツール、さまざまな AI ツールを体験

 

 

おすすめ

転載: blog.csdn.net/weixin_44782294/article/details/126805421