ICCV 2023 | NanoDet、Tencent、MicroBT を超え、68.77k の超軽量ターゲット検出器をリリースしました。

ガイド

皆さん、おはようございます昨日は、皆様に愛されているMICCAI 2023に掲載された最新の医療画像セマンティックセグメンテーション作品の解釈をしてきました。一部のファンは、ICCV 2023 でターゲット検出の転送に関する記事を共有することを望んでバックステージにメッセージを残したので、編集者は友人のニーズに応えたいと考えて、残業して今日の記事を書き上げました。さらに、優れた研究成果があり、それをみんなと共有したい場合は、記事の最後にミルク カバー WeChat を追加して、コミュニケーションをとり、一緒に学びましょう。

本日紹介する研究は、エッジ デバイス向けの効率的な物体検出器を設計することによって、エネルギー消費とパフォーマンスの間のトレードオフを調査する方法に重点を置いています。この研究では、低エネルギーコンポーネントを使用した新しい物体検出器を導入しFemtoDet畳み込み最適化の新しい方法最適化されたトレーニング戦略を提案します。

研究の主な内容については、原文の利点が長々と述べられているが、大まかに次のような側面から解釈することができる。

低エネルギーアーキテクチャの開発

この記事ではまず、さまざまな畳み込みニューラル ネットワークを分析して、低エネルギーのアーキテクチャを見つけます。これには、活性化関数畳み込み演算子、および特徴融合構造の選択が含まれます。著者らは、過去の研究では見落とされていたこれらの詳細が検出器のエネルギー消費に深刻な影響を与えていると主張している。

フェムトデットの構築

低エネルギーアーキテクチャに関する上記の発見に基づいて、著者らはFemtoDetという名前の新しい物体検出器を設計および提案します。昨日上海交通大学によって提案された50Kサイズと同様にEGE-UNet、パラメーターは68.77kFemtoDetしかありませんが、テスト セットで46.3の AP50 スコアを達成できます。同時に、プラットフォームでのこの方法の消費電力はわずか1.11ワットで、実行フレーム レートは驚くべきFPS に達します。大型モデルが跋扈する現代において、大多数のローエンドプレイヤーにとっては一縷の安心と希望であるとしか言いようがありません。PASCAL VOCQualcomm Snapdragon 865 CPU64.47

畳み込みの最適化とトレーニング戦略

先ほど述べたように、畳み込みを最適化し、CNN の限られた能力と多様な空間表現における検出タスクの間の矛盾を解決するために、インスタンス境界強化( ) と呼ばれるモジュールもここで提案されています。Instance Boundary Enhancement,IBEさらに、データ拡張による軽量検出器のデータオフセット問題を解決するために、著者は再帰的起動Recursive Warm-restart,RecWRのトレーニング戦略を提案しています( )。どちらの方法も PASCAL VOC データセットで評価されます。

その結果、IBEはパラメータを追加することなくFemtoDetのパフォーマンスを約7.72%向上させることができ、RecWRはデータ強調の強度を段階的に下げることで、多段階学習においてFemtoDetのパフォーマンスを約6.19%向上させることができることを示しています。

アプリケーションシナリオ

FemtoDet は、高速応答とアラームを実現できる階層型スマート チップに特に適しています。たとえば、歩行者検出の TJU-DHD データセットでは AR20 が 85.8、AP20 が 76.3 である一方、中型および大型の物体検出では良好なパフォーマンスを示します。同時に、FemtoDet は、AP50 または AP20 および中程度に困難なデータ シナリオ (VOC など) で良好なパフォーマンスを発揮し、アプリケーションの機能をある程度反映できます。

ターゲットの検出

実際、近年、純粋なテストに関する記事が非常に少ないことに気づいているかどうかはわかりませんが、この機会にこれまでの知識を一緒に復習し、今日はざっくりと見ていきましょう。

周知のとおり、深層学習に基づく物体検出の開発には、主に 2 段階検出器と 1 段階検出器の 2 つのカテゴリが含まれます。

2 段階の検出器は、まず画像から領域の提案を生成し、次にこれらの提案から最終的な予測ボックスを生成します。2 段階検出器は 1 段階検出器に比べて精度が高いものの、エッジデバイスでは低遅延を実現することがまだ難しいため、ゲームなどの特殊な場合を除き、特に実用的なアプリケーションでは基本的に 1 段階検出器が使用されます。

1 段階検出器は、ボックスAnchor回帰のために画像全体に事前分布が注入されるかどうかに応じて、アンカーベースとアンカーフリーの 2 つのタイプにさらに分類できます。たとえば、SSD境界ボックスの出力空間を、特徴マップの各位置で異なるアスペクト比とスケールを持つ一連のデフォルト アンカーに離散化する、典型的なアンカーベースの 1 段階検出器です。YOLOシリーズも代表的なアンカー式探知機で、ミルクキャップよりも馴染みがあると思います。第 2 に、アンカーフリー検出器は、CornerNetオブジェクトの 2 つのキー ポイント (境界ボックスの左上隅と右下隅によって) を予測することによってオブジェクトを検出するなど、事前に定義されたアンカー ポイントのセットを排除することを目的としています。また、完全な畳み込み 1 段階のオブジェクト検出器を提案することでアンカー ポイントの設定を排除しCenterNetますFCOS

1 段階および 2 段階の物体検出方法は、COCO や TJU-DHD などの多くの困難な公開データセットで高いパフォーマンスを実現しますが、エッジ デバイスに展開された検出器では、検出遅延と消費電力が重要な問題となります。検出遅延の問題を解決するために、精度と効率のバランスを達成するために多くの研究が行われてきました。その点についてもFastYOLO言及YOLObiteしなければなりませんNanoDetただし、精度優先の検出器も遅延優先の検出器もエネルギー消費を考慮していません。エネルギー消費量の多い検出器は、エッジに配置されたデバイスには適していません。したがって、この論文の目標は、エネルギーと性能の間のトレードオフを達成できる軽量の検出器を開発することです。

フェムトイット

FemtoDetの設計は主に、低エネルギー検出器のベンチマーク設定と関連するエネルギー消費の調査の 2 つの部分に焦点を当てています。

まず、著者らは、低エネルギー検出器を設計し、活性化関数、畳み込み演算子、および検出器構造を探索するためのベンチマークを提供しますNeckアクティベーション関数、畳み込み演算子、およびデコーダーは、物体検出を構成する 3 つの基本要素であり、モデルのパフォーマンスとエネルギー消費に重要な影響を与えます。たとえばReLUGELU、 、 、Swishなどの一般的に使用されるアクティベーション関数SiLUは、パラメーターが少なく、浮動小数点演算であるため、オブジェクト検出に広く使用されています。したがって、同じアーキテクチャ内の異なる活性化関数のエネルギー消費を計算することで、エネルギー指向の検出器の設計にどの活性化関数がより適しているかを検討することができます。

次に、低エネルギー検出器の設計ベンチマークに基づいて、著者らはFemtoDetという名前のエネルギー指向の軽量検出器を提供します。FemtoDet は 2 つの設計を通じて最適化されています: インスタンス境界拡張 (IBE) モジュールは、FemtoDet の深さ方向分離可能畳み込み (DSC) を改善するために使用され、軽量モデルの表現最適化のボトルネックを克服します; 再帰的ウォーム リスタート (RecWR) トレーニング戦略は、多段階の再帰的ホット リスタート学習プロセスであり、強力なデータ拡張によって生成されるデータ転送を克服できます。後ほど一つずつご紹介していきます。

さらに、モデルのエネルギー消費と、エネルギーと性能のトレードオフを達成するモデルの能力を包括的に評価するために、一般的に使用される Top1-Acc (画像分類用) と mAP (物体検出用) メトリクスに加えて、著者らは、Power (エネルギーコスト) と mEPT (平均エネルギーと性能のトレードオフ) という 2 つの評価指標も提案しました。

インスタンス境界拡張モジュール

IBEモジュール 軽量検出器を最適化するために設計されたモジュールです。軽量モデルの表現能力が限られているため、学習する特徴が分散する傾向があります。IBE モジュールの目的は、FemtoDet の深さ方向の分離可能な畳み込み (Depthwise Separable Convolutions、DSC) を改善し、それによって軽量モデル表現の最適化のボトルネックを克服することです。

IBE モジュールは、畳み込み層を深さ方向と点方向の層に因数分解することに基づいて設計されています。また、二重正規化メカニズムも導入されています。具体的には、このモジュールは、新しいローカル記述子セマンティック プロジェクター、およびデュアル正規化層を設計することによってDSC を強化します。特に、1 × 1 1 \times 11×1のローカル記述子は、勾配ヒントに関する線形変換を統合することによって生成されるパラメーター再利用メカニズムです。したがって、オブジェクトの境界情報はローカル記述子で見つけることができます。次に、このオブジェクト境界情報を利用して、上記の深さ方向の畳み込みなどの標準的な操作のノイズの多い特徴表現を強化します。

最後に、ローカル記述子間の特徴追加オブジェクト境界キューと深さ方向の畳み込みを組み合わせて、インスタンスの効率的な表現を学習するようにモデルを導きます。調整の結果は、上の可視化結果の図 © から見ることができます。

再帰的ホットリスタートトレーニング戦略

強力な拡張(SA)は電流検出で広く使用されていますが、著者らは、現在のトレーニング戦略では、SA によって生成された多様なトレーニング表現を十分に活用して、実際の検証データの汎化能力を向上させることができないことを発見しました。

したがって、この論文では、効果的なトレーニング戦略である Recursive Warm Restart (RecWR) を提案します。トレーニングのプロセス全体は 4 つの段階に分けることができます。第 1 段階から第 4 段階に至るまで、画像強調の強度は徐々に減少します。MixUp具体的には、トレーニングの最初の段階では、 、 、Mosaicなどのいくつかの SA タイプが使用されますRandomAffine第 2 段階以降、第 4 段階までの各トレーニング段階で前述の SA タイプが徐々に弱められます。

さらに、各トレーニング エポックを開始する前に、トレーニングを待機している検出器には、初期化として前のトレーニング エポックからのトレーニングされた重みがロードされます。実験の結果、RecWR で FemtoDet をトレーニングした後、MixUp はこれらの非常に小さな検出器のパフォーマンス向上にも役立つことがわかりました。言い換えれば、RecWR は SA によって学習された多様な機能を活用して、FemtoDet を次善のジレンマから解放します。

実験

活性化関数

畳み込み記述子

精度

消費電力

要約する

この論文では、非常に軽量な検出器の最適化問題を克服するための、新しいインスタンス境界拡張モジュール (IBE) と再帰的ウォーム リスタート トレーニング戦略 (RecWR) を提案します。
実験結果によると、パフォーマンスの向上はエネルギー消費の増加につながる可能性がありますが、ReLU などのシンプルなコンポーネントで構築されたエネルギー指向の検出器はこの影響を大幅に削減できることが示されています。
VOC、COCO、および TJU-DHD データセットでは、このメソッドは、最小限のエネルギー消費でありながら、現在の最先端技術に匹敵するパフォーマンスを達成します。

最後に書きます

ターゲット検出や関連アプリケーションに興味のある子供靴も、画面下部の QR コードをスキャンするか、WeChat アカウント cv_huber を直接検索して編集者の友達を追加し、備考: 学校/会社-研究方向-ニックネームを追加し、何千人もの学者や専門家とコミュニケーションをとって最先端の AI テクノロジーについて話し合うこともできます。

おすすめ

転載: blog.csdn.net/CVHub/article/details/131874323