乾いた情報 | 北京大学が DynamicDet を提案: ターゲット検出器用のユニバーサル動的アーキテクチャ

青い文字をクリックしてください

ae1a165f6f3ab991fa9cd277480fdf75.jpeg

私たちに従ってください

AI TIME は、あらゆる AI 愛好家の参加を歓迎します。

以下のコンテンツは CVer からのものです

この記事は、CVPR 2023 論文「DynamicDet: A Unified Dynamic Architecture for Object Detection (DynamicDet: A Unified Dynamic Architecture for Object Detection)」を共有しています。これは、北京大学の王宣コンピュータサイエンス研究所の Wang Yongtao のチームによって提案された、物体検出器のためのユニバーサル動的アーキテクチャです。

具体的な情報は次のとおりです。

f7f333ff2a491fea9453345c06325a9e.png

  • 論文: https://arxiv.org/abs/2304.05552

  • コード: https://github.com/VDIGPKU/DynamicDet

TL; DR

d9186eb0b12818e511dc2fae8565dd7c.png

この論文は、異なる難易度の画像の推論パスを自動的に選択することにより、物体検出タスクにおける推論速度と精度の間で優れたトレードオフを実現する動的物体検出器アーキテクチャを設計することを目的としています。具体的には、物体検出器の特性に基づいた一般的な動的アーキテクチャを提案し、検出対象の画像ごとに最適な早期離脱ルートを自動的に選択する適応ルータを設計します。同時に、著者は、上記の動的アーキテクチャの効果的なトレーニングと推論展開を達成するために、提案された一般的な動的アーキテクチャに対応するハイパーパラメータフリーのトレーニング戦略可変遅延推論戦略を設計しました。上図に示すように、著者は MS COCO ターゲット検出データセットに対して実験を実施し、その結果、提案されたソリューションが多くのベンチマーク モデルを大幅に上回り、現段階で精度と推論速度の間で最高のトレードオフを達成していることがわかりました。

1. 研究の背景

0aa0cf1bcb4603df0d3d86791bb4de6d.png

人間の脳は、ディープ ラーニングやコンピューター ビジョンの多くの分野に影響を与えてきました。ダイナミック ニューラル ネットワークはその典型的な例です。上の図に示すように、人間は左側の「簡単な」画像上のすべてのオブジェクトをすぐに識別できますが、右側の「難しい」画像上のオブジェクトを識別するにはさらに時間がかかります。言い換えれば、人間の脳はさまざまな画像をさまざまな速度で処理しますが、この速度は多くの場合、画像の理解しやすさに依存します。

人間の脳のこの特性は、ダイナミック ニューラル ネットワークの研究にインスピレーションを与え、研究者は、異なる難易度の画像の推論ルートを適応的に選択することにより、画像分類や顔検出などのタスクにおいて、非常に優れた精度と推論速度を達成しました。

ただし、動的推論アーキテクチャと物体検出器の早期終了戦略が欠如しているため、強力な動的物体検出器を設計することは非常に困難です。

この論文では、著者らはオブジェクト検出器の動的推論を実装するための一般的な動的フレームワーク、すなわち DynamicDet を提案します。まず、物体検出器の特性に基づいて一般的な動的アーキテクチャが提案され、 検出対象の画像ごとに最適な早期離脱ルートを自動的に選択するアダプティブ ルーターが設計されています。次に、著者は、提案された一般的な動的アーキテクチャに対して、対応するハイパーパラメータフリーの最適化戦略 可変速推論戦略 **を設計しました。

2. 研究方法

01c4ad526a6fd286caa9f6aa6a76ad72.png

一般的な動的アーキテクチャ

ターゲット検出器は通常、バックボーン ネットワーク、ネック ネットワーク Neck、および検出器ヘッドの 3 つの部分で構成されます。バックボーン ネットワーク (ResNet50、Vision Transformer など) は基本的な視覚特徴の抽出に使用され、ネック ネットワーク (マルチスケールの特徴情報を融合するために、検出器ヘッドはターゲットの種類と位置を予測するように特別に設計されています。上の図に示すように、この記事で説明するターゲット検出器の一般的な動的アーキテクチャもこのアーキテクチャに基づいていますが、違いは、2 つのカスケード バックボーン ネットワークと、対応するネック ネットワークと検出器ヘッド、および 2 つのネットワークの間にあることです。バックボーンネットワーク ダイナミックルーター(Router)を挿入しました。

推論を例に挙げると、まず、検出対象の画像が最初のバックボーン ネットワークを通じて第 1 レベルのマルチスケール特徴を抽出し、そのマルチスケール特徴を動的ルーターに送信して画像の難易度を評価します。

(1) 「単純な」画像であると判断された場合、第 1 レベルのマルチスケール特徴がネック ネットワークと検出ヘッドの最初のセットに送信され、検出結果が出力されます。

(2) 「困難な」画像であると判断された場合、検出対象の画像とその第 1 レベルのマルチスケール特徴が第 2 のバックボーン ネットワークに送信され、第 2 レベルのマルチスケール特徴が抽出されます。第 2 レベルのマルチスケール フィーチャは、ネック ネットワークと検出ヘッドの第 2 グループが検出結果を出力するために送信されます。画像と以前のレベルのマルチスケール機能を処理するこの記事の 2 番目のバックボーン ネットワークのソリューションは、結合バックボーン ネットワーク (CBNetV2) のソリューションを直接利用していることは注目に値します。

上記のプロセスにより、「単純な」画像は 1 つのバックボーン ネットワークのみで抽出された基本特徴 (高速だが粗い) を持ち、「難しい」画像は 2 つのカスケード バックボーン ネットワークで抽出された基本特徴 (遅いが細かい) を持ちます。明らかに、この構造は精度と推論速度の間のトレードオフを効果的に達成できます。同時に、アーキテクチャの汎用性のおかげで、既存の物体検出器を迅速に拡張して、このソリューションを直接利用することができます。

アダプティブルーター

画像の難易度をより適切に判定するために、著者は適応ルータを提案し、入力されたマルチスケール特徴情報に基づいて難易度判定を行った。

最初のバックボーン ネットワークによって出力されるマルチスケール フィーチャが次のとおりであると仮定します。 動的ルーターの計算の複雑さを軽減するために、作成者はまず情報を圧縮して、圧縮されたフィーチャを取得します。

68c5ef64179a67784e62c69959212a22.png

その中には、グローバル プーリング操作とチャネル ディメンション スプライシング操作があります。

その後、著者は 2 つの線形マッピング レイヤーを介して特徴を難易度スコアにマッピングします。

de545cab5ec2b113c179cf26a09e389a.png

このうち、 、 、 はそれぞれ、線形層の学習可能なパラメータである ReLU および Sigmoid 活性化関数を表します。この記事では、最初の線形層は特徴の数を に圧縮し、2 番目の線形層は 1 (つまり) に圧縮します。

ハイパーパラメータトレーニング戦略がない

著者は、上で提案した一般的な動的アーキテクチャ向けに、ハイパーパラメータを使用しない一連のトレーニング戦略を設計しました。

(1) まず、カスケードされたオブジェクト検出器の 2 つのセットがトレーニング セット データに基づいて共同でトレーニングされます。トレーニングの目標は次のとおりです。

7f20876e68e267c236f9d82539cd95e8.png

それらのうち、 、 はそれぞれ入力画像と実際のラベルを表し、オブジェクト検出器の 3 番目のグループの学習可能なパラメータを表し、オブジェクト検出器の 3 番目のグループのトレーニング損失 (つまり、バウンディング ボックス回帰損失と分類損失など) を表します。 。)。このプロセスでは、カスケードされたターゲット検出器の両方のセットがトレーニングを通じてターゲットを検出する機能を備えているため、それらのパラメーターは後続のトレーニングで固定されます。

(2) その後、トレーニングセットデータに基づいてアダプティブルータがトレーニングされます。著者はまず、トレーニングの目標を次のように仮定した素朴なアプローチを示します。

e09d51b2cb32add3abd05c704deeb3a6.png

この場合、可能な限り多くの「困難な」画像ルートを選択することで損失を最小限に抑えるために、適応ルーターの出力は常に最大値 (つまり 1) になる傾向がありますが、これは明らかに動的検出器の期待を満たしていません。 。

さらに一歩進んで、一般的なアプローチは、トレーニング ターゲットに追加のハードウェア ペナルティ条件を追加することです。

6ed26c39ff794b18c36b04cf68b76f1f.png

ただし、さまざまな検出器やさまざまなハードウェア シナリオに適用する場合、ハイパーパラメータを微調整するための試行錯誤が必要となり、膨大なリソースの消費につながります。

この目的を達成するために、著者は、2 セットの検出器間の損失差を画像の難易度を評価する信号として使用し、これを適応ルーターのトレーニングに使用することを提案します。

6edb6826e9093394591c39fd02ad7487.png

上の図に示すように、著者は、2 セットの検出器間の損失の差が「単純な」画像では小さく、「難しい」画像では大きいことを発見しました。これは直感的です。「単純な」画像には情報が少ないため、最初の検出器グループは検出タスクを完了できますが、「難しい」画像にはより多くの情報が含まれているため、最初の検出器グループは検出タスクを完了できない可能性があります。しかし、より正確な 2 番目の検出器セットを使用すると、正確に検出できます。

上記の発見に基づいて、著者は、最初の検出器セットに報酬を与え、2 番目の検出器セットに罰を与える適応オフセットを導入します。

0680d8bbc87da243f53735a0aa961095.png

ここで、 は適応オフセットであり、トレーニング セット データ上の 2 つの検出器セット間の損失差の中央値です。実際のアプリケーションでは、適応オフセットはオフラインで統計的に取得することも、トレーニング プロセス中にトレーニング データに基づいて動的に更新することもできます。

可変遅延推論戦略

著者は、上で提案した一般的な動的アーキテクチャ用の一連の可変遅延推論戦略を設計しました。

推論中, 適応ルータは検出される画像の難易度スコアを出力する. 著者は, 同じ動的検出器に異なる時間を満たすために異なる難易度のしきい値を設定することによって, 一連の精度と推論速度のトレードオフを直接得ることができることを発見した要件、遅延要求。同時に、特定の推論遅延の難易度しきい値を直接取得するために、著者はシンプルだが効果的な解決策を提案しました。

(1) すべての検証セット データの難易度スコアを計算します。

(2) 特定の遅延要件 ( と仮定) に基づいて、次の式を使用して難易度比を取得します。

3d3d6ed633c13b34193484e67e9fd09b.png

その中には、それぞれ第 1 グループと第 2 グループの検出器の推論遅延が含まれます。

(3) 検証セットの難易度しきい値を取得します。

a915d92102b71d7a4f2038056eb3d74c.png

その中で、指定されたセットの分位数を見つけるために使用されます。検証セットとテスト セットのデータが独立しており、同一に分散されていることを考慮すると、テスト セットに直接適用できることは注目に値します。

3. 実験結果

この論文では、MS COCO ターゲット検出データセットに関する実験を実施しました。以下の表に示すように、著者は YOLOv7 シリーズ モデルをベンチマークとして使用し、これに基づいて YOLOv7、YOLOv7-X、および YOLOv7-W6 を動的ターゲット検出器に拡張し、精度間の一連のトレードオフ結果を達成しました。ベンチマークモデルを上回る推論速度を実現します。たとえば、Dy-YOLOv7-W6 / 90 (画像の 10% が「簡単」、90% が「難しい」に分類される) は 48 FPS で 56.7% の AP を達成しました。これは、同様の精度の YOLOv7-D6 よりも 17 倍高速です。 %; Dy-YOLOv7-W6 / 100 は 46 FPS で 56.8% の AP を達成し、同様の精度で YOLOv7-E6E より 39% 高速になりました。

従来のモデル スケーリング ソリューションとは異なり、この記事で提案する動的ターゲット検出ソリューションではモデルが 1 つだけ必要であり、精度と推論速度の間の一連のトレードオフ結果を直接取得できることは注目に値します。

dc9652820b5821c285a89be3643eeec7.png

著者はまた、Faster R-CNN ResNet と Mask R-CNN Swin Transformer の 2 段階検出器に関する実験も行いました。以下の表に示すように、Dy-Mask R-CNN Swin-T / 50 を例にとると、12 FPS で 48.7% AP (bbox) を達成しました。これは、Mask R-CNN Swin-S と同じ速度ですが、精度が0.5%向上しました。

f948d0a51c3173de9e1c1c6d3bba05f8.png

動的物体検出器のスコアリングの有効性を実証するために、著者らは、以下の図にさまざまな画像の難易度スコアを視覚的に表示しています。図からわかるように、「簡単な」画像には通常、含まれるオブジェクトが少なく、通常のカメラ アングルときれいな背景がありますが、「難しい」画像には通常、より多くのより小さなオブジェクトが含まれ、より複雑なシーン (ブロッキングなど) が含まれます。 

8670a4574ad621a3ede10abad14e1217.png

4. 結論

この論文では、ターゲット検出器の一般的な動的アーキテクチャを提案し、既存のモデルに基づいて動的ターゲット検出器を迅速に取得するためのトレーニングおよび推論プロセスの完全なセットを提案します。著者は複数の典型的な目標検出器に基づいて十分な実験を行った.その結果は,提案されたスキームが1つの動的目標検出器モデルのみを使用する場合に精度と推論速度の間の一連の優れたトレードオフ結果を達成できることを示した.ベースラインモデルを上回っている。

思い出させる

「原文を読む」をクリックすると00:01:15にジャンプします。

リプレイが見れます!

 AI TIMEについて 

AI TIME は 2019 年に設立され、科学的思索の精神を継承し、あらゆる階層の人々を招待して人工知能の理論、アルゴリズム、シナリオの応用の本質的な問題を探求し、アイデアの衝突を強化し、世界的な AI 学者を結びつけることを目的としています。業界の専門家や愛好家は、討論の形で人工知能と人類の未来の間の矛盾を探り、人工知能分野の未来を探ります。

AI TIMEはこれまでに国内外から1,100人以上の講演者を招き、550回以上のイベントを開催し、600万人以上が視聴しました。

8ee9929e0941406019bd5c2db01e7d60.png

私はあなたを知っています。

覗く

おお

1bb16b56ff9314f838195a69b1787d77.gif

クリックして原文を読み 、リプレイをご覧ください。

おすすめ

転載: blog.csdn.net/AITIME_HY/article/details/132614049