YOLOv8 の改善 | バックボーン ネットワーク | YOLOv8 がバックボーン ネットワークの ConvNext を置き換える | 「ViT を超えた純粋な畳み込み構造」

ここに画像の説明を挿入
ここに画像の説明を挿入
論文アドレス: https://arxiv.org/pdf/2201.03545.pdf
コードアドレス: https://github.com/facebookresearch/ConvNeXt

視覚認識の「狂騒の 20 年代」は、最先端の画像分類モデルとして ConvNet にすぐに取って代わられた Visual Transformers (ViT) の導入から始まりました。一方、一般的な ViT は、オブジェクト検出やセマンティック セグメンテーションなどの一般的なコンピューター ビジョン タスクに適用すると困難に直面します。これは、階層型トランスフォーマー (Swin トランスフォーマーなど) によるいくつかの ConvNet Prior の再導入であり、トランスフォーマーを一般的なビジョン バックボーン ネットワークとして実現可能にし、さまざまなビジョン タスクで優れたパフォーマンスを発揮します。ただし、このハイブリッド アプローチの有効性は依然として、畳み込みの固有の誘導バイアスではなく、Transformer の固有の利点によるところが大きいです。この研究では、設計空間を再訪し、純粋な ConvNet が達成できる限界をテストします。私たちは標準 ResNet をビジョン Transformer 設計に向けて徐々に「最新化」し、その過程でパフォーマンスの違いに寄与するいくつかの重要なコンポーネントを発見します。この探求の結果は、一連の純粋な ConvNe です。

おすすめ

転載: blog.csdn.net/weixin_43694096/article/details/131478498