CVPR 2022 |畳み込みカーネルは31x31と同じ大きさです!浮き沈みと効率的!Tsinghua&MegviiはRepLKNetを提案しました:新しいビジュアルバックボーンネットワーク...

下のカードをクリックして、「 CVer」パブリックアカウントをフォローしてください

AI / CVの重い乾物、できるだけ早く配達

この記事は以下から複製されています:Ding Situ public account

カーネルサイズを調整してからどれくらい経ちますか?

畳み込みネットワーク(CNN)の深さ、幅、グループ、および入力解像度を調整する必要がある場合、設計次元、カーネルサイズがあることをうっかり覚えてしまいます。これは、常に非常に明白ですが、常に無視され、常にデフォルトになります。 3x3または5x5?

Transformerのパラメーターを調整することに抵抗がある場合、シンプルで効率的で展開が簡単なモデルが必要であり、ダウンストリームタスクのパフォーマンスはTransformerよりも弱くなく、単純な幸福をもたらしますか?

CVPR 2022で公開された私たちの研究は、CNNのカーネルサイズが非常に重要であるが、常に見過ごされている設計次元であることを示しています。現代のモデル設計の恩恵を受けて、畳み込みカーネルが大きいほど、より暴力的になります。31x31の大きさで、機能します。非常にうまくいきます(下の表に示すように、左の列はモデルの4つのステージのそれぞれのカーネルサイズを表しています)!大規模なダウンストリームタスクでも、提案された大規模な畳み込みカーネルモデルRepLKNetのパフォーマンスは、Swinなどのトランスフォーマーのパフォーマンスよりも優れているか、同等です。

53c947add7380da0ec94913082ba1aff.png

カーネルを31x31にスケールアップする:CNNでの大規模カーネル設計の再検討

論文:https://arxiv.org/abs/2203.06717

MegEngineのコードとモデル:

https://github.com/megvii-research/RepLKNet

PyTorchのコードとモデル:

https://github.com/DingXiaoH/RepLKNet-pytorch

0a20092d6d5f44c0335ca406303fa503.png


バージョンを読むには長すぎます

これが2分で読めるものの要約です

A. CNNとトランスフォーマーに関する業界の知識と理解にどのように貢献しますか?

私たちは次の習慣的な認識に挑戦しました:

1.スーパーコンボリューションは増加しないだけでなく、減少しますか?スーパーコンボリューションが過去に使用されていなかったことを証明しますが、現在使用できないという意味ではありません人間の科学に対する認識は常に上向きに渦巻いています。現代のCNNデザイン(ショートカット、再パラメーター化など)の恩恵を受けて、カーネルサイズが大きくなるほど、それはさらに大きくなります。

2.超大畳み込みの効率は非常に悪いですか?深さ方向の畳み込みが非常に大きい場合、FLOPはそれほど増加しないことがわかりました。低レベルの最適化を追加すると、速度が速くなり、31x31の計算密度は3x3の最大70倍になる可能性があります

3.大きな畳み込みは、大きなフィーチャマップでのみ使用できますか?7x7の特徴マップで13x13の畳み込みを使用すると、少し増える可能性があることがわかりました

4. ImageNetポイントはそれをすべて言いますか?ダウンストリーム(オブジェクト検出、セマンティックセグメンテーションなど)タスクのパフォーマンスは、ImageNetに関連しない可能性があることがわかりました。

5.超深層CNN(ResNet-152など)は3x3を大量にスタックするので、受容野は大きいですか?ディープスモールカーネルモデルの有効受容野は実際には非常に小さいことがわかりました。それどころか、少数の大きな畳み込みカーネルの有効受容野は非常に大きい

6.トランスフォーマー(ViT、Swinなど)は、自己注意(Query-Key-Valueの設計形式)の性質が強いため、ダウンストリームタスクで強力なパフォーマンスを発揮しますか?大規模な畳み込みカーネルで検証したところ、カーネルサイズがダウンストリームの成長の鍵になる可能性があることがわかりました。

B.私たちはどのような特定の仕事をしましたか?

1.一連の探索的実験を通じて、最新のCNNに大規模な畳み込みカーネルを適用するための5つのガイドラインを要約します。

    a。深さ方向のスーパーコンボリューションを使用します。基礎となる最適化を追加するのが最適です(オープンソースフレームワークMegEngineに統合されています) 。

    b。加ショートカット

    c。小さな畳み込みカーネルを使用した再パラメーター化(つまり、構造的な再パラメーター化の方法論、昨年のRepVGG、リファレンス[1]を参照)

    d。ダウンストリームタスクのパフォーマンスを確認するために、ImageNetポイントのレベルだけを確認することはできません。

    e。大きな畳み込みは小さなフィーチャマップでも使用でき、カーネルモデルは通常の解像度でトレーニングできます

2.上記の基準に基づいて、Swin Transformerのマクロアーキテクチャから単純に借用して、27x27、31x31などの多数の大きな畳み込みが使用されるアーキテクチャRepLKNetが提案されます。このアーキテクチャの他の部分は非常に単純で、1x1畳み込み、バッチノルムなどの単純な構造であり、注意を払う必要はありません。

3.大規模な畳み込みカーネルに基づいて、有効な受容野形状バイアス(モデルは決定を行うときにオブジェクトの形状またはローカルテクスチャを確認しますか?)、およびトランスフォーマーが持つ理由などのトピックの議論と分析強力なパフォーマンス。ResNet-152などの従来のディープスモールカーネルモデルの有効受容野は実際には大きくないことがわかりました。ラージカーネルモデルは、有効受容野が大きいだけでなく、より人間に似ています(形状バイアスが高い)。自己ではなく、大きなカーネルの鍵となる-特定の注意の形。たとえば、次の図は、ResNet-101、ResNet-152、すべて13x13のRepLKNet、および31x31のカーネルを持つRepLKNetの有効受容野を示しています。より浅い大規模カーネルモデルの有効受容野であることがわかります。非常に大きいです。

546534f445f420a617ad4b0a2215a91d.png

C.提案されたアーキテクチャRepLKNetはどの程度うまく機能しますか?

1. ImageNetでは、Swin-Baseに相当します。追加のデータトレーニングにより、超大規模モデルは87.8%の最高精度を達成できます。超大規模な畳み込みカーネルは、もともとImageNetをブラッシングするために設計されたものではなく、この数のポイントは十分であると見なすことができます。

2. Cityscapesのセマンティックセグメンテーションでは、ImageNet-1KプレトレインのRepLKNet-Baseのみが使用され、ImageNet-22KプレトレインのSwin-Largeを上回っています。これは、モデルの規模とデータの規模を超えた超越です。

3. ADE20Kセマンティックセグメンテーションに関して、ImageNet-1Kプレトレインモデルは、ResNetやResNeStなどの小さなカーネルの従来のCNNを大幅に上回っています。ベースレベルモデルはSwinを大幅に上回り、ラージモデルはSwinに匹敵します。ハイパースケールモデルは56%のmIoUを達成します。

4. COCOターゲット検出では、同じ大きさ( 4.4 mAP以上)の従来のモデルResNeXt-101を大幅に上回り、Swinに匹敵し、超大規模レベルで55.5%mAPに達します

以下は詳細な紹介です

当初の意図:なぜ大きなカーネルサイズが必要なのですか?

この時代、私たちは非常にレトロに聞こえる大きなカーネルを研究しに行きます、なぜですか?

1.  「誤って殺された」設計要素を復活させ、ビッグカーネルの名前を修正します歴史的に、AlexNetは11x11の畳み込みを使用していましたが、VGGの出現後、大きなカーネルは徐々に排除され、浅いカーネルと大きなカーネルから深いカーネルと小さなカーネルへのモデル設計のパラダイムシフトが顕著になりました。この変更の理由には、大きなカーネルの効率が悪いことが判明し(パラメーターの量と畳み込みの計算はカーネルサイズの2乗に比例する)、大きなカーネルサイズの精度が低下するという事実が含まれます。等 しかし、時代は変わりました。歴史上機能しなかった大きなカーネルは、現代のテクノロジーの恩恵を受けて機能することができるでしょうか。

2. 従来のディープスモールカーネルCNNに固有の欠陥を克服します以前は、大きなカーネルをいくつかの小さなカーネルに置き換えることができると考えていました。たとえば、7x7を3つの3x3に置き換えると、より高速(3x3x3 <1x7x7)で、より優れた(より深く、より非線形)ことができます。一部の学生は、深く小さなカーネルのスタッキングは最適化問題を起こしやすいと思うでしょうが、この問題はResNetによって解決されています(ResNet-152には3x3畳み込みの50層があります)。このアプローチの欠点は何ですか?-この問題を解決するためのResNetのコストは、モデルの理論上の最大受容野が大きくても、実際の有効深度は深くないため(参考文献2)、有効受容野は大きくないということです。これは、従来のCNNがImageNetのTransformerに似ているが、ダウンストリームタスクでは一般的にTransformerより劣っている理由でもある可能性があります。とは言うものの、ResNetは基本的に、「ディープモデルを最適化するのが難しい」問題を実際に解決せずに回避するのに役立ちます。深くて小さいカーネルモデルにはそのような本質的な問題があるので、浅くて大きいカーネル設計パラダイムの効果は何でしょうか?

3.Transformerが機能する理由を理解します。トランスフォーマーは、特に検出やセグメンテーションなどのダウンストリームタスクで良好に機能することが知られています。Transformerの基本コンポーネントは自己注意であり、自己注意の本質は、グローバルスケールまたはより大きなウィンドウでQuery-Key-Value操作を実行することです。では、Transformerの強力なパフォーマンスの理由は何ですか、それはQuery-Key-Valueの設計形式ですか?グローバルスケール以上のウィンドウ」がカギになるのではないでしょうか。検証するために大規模な畳み込みカーネルを必要とするCNNに対応

実験を探る

ビッグカーネルの使用方法を理解するために、MobileNet V2で一連の調査実験を実施し、5つの原則をまとめました。詳細はここでは省略され、結論のみが示されています。

1.深さ方向に大きなカーネルを使用すると、非常に効率的になります。最適化(オープンソースフレームワークMegEngineに統合されている)では、31x31の深さ方向の畳み込みの時間は3x3の畳み込みの1.5倍以上になり、前者のFLOPは106倍(31x31 / 9)になります。後者は、前者の効率が後者の71倍であることを意味します!

2. IDショートカットがない場合、カーネルを増やすとポイントが大幅に減少します(ImageNetは15%失われます)。ショートカットを使用すると、カーネルを増やすとポイントが増加します。

3.カーネルサイズを大きなカーネルから超大きなカーネルにさらに大きくしたい場合は、構造の再パラメーター化に小さなカーネルを使用できます(参照1)。つまり、トレーニング中に3x3または5x5の畳み込みが並行して追加され、トレーニングの完了後に小さなカーネルが大きなカーネルに同等にマージされます。このようにして、モデルはさまざまなスケールで機能を効果的にキャプチャできます。ただし、データセットが小さく、モデルが小さいほど、パラメーターの再設定が重要であることがわかりました。逆に、ハイパースケールデータセットMegData73Mでは、再パラメーター化ゲインは小さい(0.1%)。この発見はViTに似ています。データサイズが大きいほど、誘導バイアスの重要性は低くなります。

4.必要なのは、ImageNetの増加ではなく、ターゲットタスクの増加です。ImageNetの精度は、必ずしもダウンストリームタスクに関連しているわけではありませんカーネルのサイズがどんどん大きくなるにつれて、ImageNetは増加しなくなりますが、CityscapesとADE20Kのセマンティックセグメンテーションは1〜2ポイント増加する可能性がありますが、カーネルによってもたらされる追加のパラメーターと計算の量を増やすと、非常に費用対効果が高くなります。 !!

5.小さな7x7の特徴マップで13x13を使用すると、少し増加する可能性があることは、少し直感に反します。つまり、ラージカーネルモデルは、トレーニングに必ずしも大きな解像度を必要とせず、スモールカーネルモデルと同様のトレーニング方法を使用できるため、高速で経済的です。

RepLKNet:非常に大規模な畳み込みカーネルアーキテクチャ

Swinを主要な比較オブジェクトとし、SOTAをブラッシングする意図はないため、Swinのマクロアーキテクチャを利用して、超大規模な畳み込みカーネルアーキテクチャを設計します。このアーキテクチャは、主に、注意を超大規模な畳み込みとそのサポート構造に置き換え、さらにCNNスタイルを少し変更することで構成されています。上記の5つの基準によると、RepLKNetの設計要素には、ショートカット、深さごとの超大規模カーネル、および小カーネルの再パラメーター化が含まれます。

c6ae0a7f0e24344ac32e7ab19e17c463.png

カーネルサイズを大きくします。大きいほど暴力的です。

RepLKNetの4つのステージに異なるカーネルサイズを設定し、ImageNetおよびADE20Kセマンティックセグメンテーションデータセットで実験を行いました。結果は非常に興味深いものです。ImageNetは7x7から13x13に増加できますが、13x13からは増加しません。 4ステージの13から4ステージの31-29-27-13に、mIoUは0.82増加し、パラメーターボリュームは5.3%しか増加せず、FLOPは3.5%しか増加しませんでした。したがって、以下の実験では、主にRepLKNet-31Bと呼ばれる31-29-27-13のカーネルサイズを使用し、RepLKNet-31Lと呼ばれる全体の1.5倍に拡大します。

a7b3d1f92497d2f8a61db9e98d289033.png

都市の景観セマンティックセグメンテーション

RepLKNet-31BのボリュームはSwin-Baseのボリュームよりもわずかに小さく、ImageNet-1Kプレトレインのみを使用することを前提として、mIoUはSwin-Large + ImageNet-22Kのボリュームを上回り、モデル間のマグニチュードの超越を完了しました。およびクロスデータの大きさ

1790c3405a2cfe4b32c46d0c6cd4faeb.png

ADE20Kセマンティックセグメンテーション

RepLKNetは、特にベースレベルで非常に機能的です。同様の規模のResNetと比較すると、mIoUは6.1高く、多数の小さなカーネルに対する少数の大きなカーネルの大きな利点を反映しています。(COCOターゲット検出でも同じ結論が得られます。RepLKNet-31BのmAPは、同等のサイズのResNeXt-101のmAPより4.4高くなっています)。RepLKNet-XLは、プライベートデータセットMegData-73Mで事前トレーニングされた、より大きなモデルであり、56.0のmIoUを達成します(ViT-Lと比較して、このモデルは実際にはそれほど大きくありません)。

43e71cbe91b210777940577cbf999149.png

ImageNet分類、COCOオブジェクト検出

結果については、「読むには長すぎる」セクションまたは論文を参照してください。

議論と分析

有効受容野:大きなカーネルモデルは深い小さなカーネルモデルをはるかに超えています

RepLKNet-31、RepLKNet-13(上記の各ステージは13x13モデル)、ResNet-101、およびResNet-152(方法については論文を参照)の有効受容野を視覚化し、ResNet-の有効受容野を見つけました。 101実際、それは非常に小さく、101と比較したResNet-152の改善も小さいです; RepLKNet-13の有効受容野は非常に大きく、RepLKNet-31はカーネルサイズを大きくすることによって有効受容野をさらに増加させます。

8fdfc8f6a6e6a57b65ca84394779f889.png

形状バイアス:大規模なカーネルモデルはより人間に似ています

また、モデルの形状バイアス(つまり、モデルの予測のどの程度がテクスチャではなく形状に基づいているか)を調査しました。人間の形状バイアスは、約90%です。下の図の左側の菱形の点を参照してください。 。選択したモデルには、Swin、ResNet152、RepLKNet-31、およびRepLKNet-3が含まれ(上記の各ステージは3x3の小さなカーネルベースラインです)、RepLKNet-3とResNet-152のカーネルサイズは同じ(3x3)であることがわかりました。形状の偏りも非常に近いです(図の2本の垂直の実線はほぼ一致しています)。興味深いことに、形状バイアスに関する研究では、ViT(グローバルアテンション)の形状バイアスが高いと述べていますが(参考文献3の図を参照)、Swin(ウィンドウ内のローカルアテンション)の形状バイアスは実際には高くないことがわかりました(以下図)、これは注意の形が鍵ではないことを示しているようですが、行動の範囲が鍵であり、これはRepLKNet-31の高い形状バイアス(つまり、より人間らしい)も説明しています。

e538cd8e73c110591f827ce97ace07e1.png

上記の紙のPDFとコードのダウンロード

背景の返信:RepLKNet 論文やコードをダウンロードできます

舞台裏の返信:CVPR2021、 CVPR2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:ICCV2021、 ICCV2021の論文とオープンソースの論文コレクションをダウンロードできます

背景の返信:トランスフォーマーレビュー、最新の3つのトランスフォーマーレビューPDFをダウンロードできます

CVer-Transfomer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲长按加小助手微信,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!

▲扫码进群
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

おすすめ

転載: blog.csdn.net/amusi1994/article/details/123516508