深層学習に基づく細粒度分類の研究と応用

この論文は主に、深層学習画像分類の古典的なネットワーク構造と開発の歴史を紹介し、詳細な画像分類における注意メカニズムを要約し、最後に、Autohome チームが CVPR2022 に参加するために使用したモデルと関連アルゴリズムを示します。粒度分類競争、競争経験などを評価し、オートホームの自動車シリーズ認識事業におけるこのモデルの応用も紹介しました。画像分類タスク、関連する競争スキル、およびビジネス アプリケーションを理解したい読者にとって、一定の参考としての意義があります。

深層学習に基づく画像分類のためのニューラル ネットワーク

AlexNet[1] の誕生以来、ImageNet[2] コンペティションでは 62.5% というトップ 1 の精度を達成し、SIFT+FVs[3] などの従来のアルゴリズムの 8.2% を上回り、ディープ ニューラル ネットワークは画像分類のリーダーであり、主なアルゴリズムとしては、VGG[4]、ResNet[5]、Inception[6~8]、DenseNet[9]などが次々に登場しています。2019 年、Google が提案した EfficientNet[10] により、ネットワーク構造の設計が手動から自動検索の時代へと押し上げられました。2020 年に Google は、自然言語処理分野の Transformer 構造を画像分類に導入した Vision Transformer (ViT) [13] を提案し、画像分類を Transformer の時代に迎えました。

VGG[4] は、Google Deepmind とオックスフォード大学の研究者によって共同開発されました。7x7 の大きなコンボリューション カーネルの代わりに、複数のカスケード接続された 3x3 の小さなコンボリューション カーネルを使用しており、受容野の量を確保することに基づいてネットワークのパラメーターを大幅に削減します。VGG[4] のもう 1 つの貢献は、ネットワーク構造を深くすることによる分類精度の向上であり、ImageNet[2] データセット上の 19 層ネットワークを使用した場合、トップ 1 分類精度率は 74.5% に達しました。

2015 年に、当時マイクロソフトで研究に従事していた He Kaiming 氏、Sun Jian 氏らが ResNet を提案しました [5]。図 1 の残差構造を導入することで、勾配消失と勾配爆発の問題を効果的に解決しました。ディープ ニューラル ネットワークの学習プロセスであり、ネットワークが深くなるにつれて分類精度がますます悪化する「退化」問題を解決します。ImageNet[2] データセットでは初めて 152 層の超ディープ ネットワークが使用され、分類精度が向上し、78.57% のトップ 1 精度率が得られ、2015 年の ImageNet[2] で 1 位を獲得しました。 ] 競技分類トラック。

ここに画像の説明を挿入
図1 残りのモジュール

He Kaiming 氏に代表される一部の研究者はネットワークの深さを深くすることで分類効果を向上させましたが、一部の Google 研究者もネットワーク幅で大きな進歩を遂げ、2014 年と 2016 年に InceptionV1 V4 ネットワーク構造を提案しましInceptionV1[5]ネットワークの設計思想は、主に密なコンポーネント(密なコンポーネント)を使用してネットワーク内の疎な構造を近似するというものであり、このため、Googleの研究者は図2に示したInceptionの基本構造を削除しました。この構造は、複数の並列畳み込みと最大プーリングを使用し、疎構造を近似しながらマルチスケール機能を導入します。VGG[4] などの論文を参照して、5x5 畳み込みの代わりに複数のカスケード 3x3 畳み込みを使用することに基づいて、InceptionV2[6] ではデータを正規化するバッチ正規化 (BN) も追加し、トップ 1 精度率は 74.8% に達しました。 。InceptionV3[6]は、nxn 畳み込みを 1xn と nx1 のカスケード形式に分解し、トップ 1 の精度を実現する、ネットワークパラメータの量を効果的に削減できる非対称因数分解 (Asymmetric Factorization) を提案しました。率は78.8%に達します。InceptionV4 は、ResNet[5] で使用される残差構造を Inception モジュールに統合することで、トレーニング速度が大幅に高速化され、トップ 1 の精度率は 80.10% に達します。

ここに画像の説明を挿入
図 2 インセプション モジュール

ネットワークの深さと幅の研究が大きく進歩した後、一部の研究者は、ネットワークの分類効果を向上させるためにネットワークの特徴を再利用することを検討し始めました。その典型的な例は、2017 年の CVPR の最優秀論文である DenseNet [9] です。 。ResNet[5] は、残留する短い接続が勾配の消失とネットワークの劣化の問題を効果的に解決できることを証明しました。図 3 に示すように、DenseNet はこのアイデアを利用し、すべての層間に短い接続を使用します。層では、最初のN-1層の特徴がN層での特徴融合を実現すると同時に、N層の特徴が後段のLN層にも提供されて特徴融合が行われる。特徴の再利用により、無効な特徴の繰り返し抽出が回避されると同時に、ネットワークの分類精度が向上し、ネットワーク パラメーターの数も効果的に削減されます。ImageNet[2] データセット上の DenseNet[9] のトップ 1 精度率は 79.2% に達しました。

現在、ネットワーク構造を人為的に設計する仕事は花開く時代を迎えており、同時に2018年にGoogle Brainの研究者らがNeural Architecture Searchを提案しました。それ以来、ニューラル ネットワーク設計は自動化の時代に入りました。NAS には大規模なコンピューティング リソースが必要であるため、初期の NAS は、CIFAR-10 などの小規模なデータ セットで基本的な畳み込み構造単位 (セル) を検索し、これらの基本的な畳み込み構造単位 (「移行」) を大規模なデータセットにコピーしました。 ImageNet [2] として。図 4 に示すように、ネットワーク検索プロセスは RNN ネットワークによって制御され、基本的な畳み込み構造単位は、「隠れ状態」リストの最初の 2 つの状態 hi および hi-1 またはリスト内の 2 つの状態の出力を受け取ります。 (図 4 の灰色のボックス)、図 5 に示されている操作から 2 つを選択し (図 4 の黄色のボックス)、選択した 2 つの状態に作用し、最後に加算 (add) または重ね合わせ (concat) を使用します (図 4 の緑色のボックス) は融合を実行し、基本畳み込み構造単位の数が事前に設定された N に達するまで、新しい基本畳み込み構造単位を繰り返し追加します。このネットワーク検索アルゴリズムを使用すると、ImageNet[2] データセット上で見つかった NASNet[10] のトップ 1 精度率は 82.7% に達し、人工的に設計されたネットワーク構造に達し、それを上回りました。

NASNet [10] はニューラルネットワーク検索の時代を切り開き、ネットワーク構造設計の自動化を実現しましたが、その欠点も明らかです。NASNet [10] の検索空間は依然として人為的に設定されており、与えられた検索空間に基づいたネットワーク構造検索アルゴリズムです。この問題に対応して、FAIR He Kaiming のチームは 2020 年に検索空間を設計する方法を提案しました。RegNet [12] 論文では、ネットワーク構造検索空間もネットワーク構造設計の一部です。図 6 に示すように、ネットワーク サーチ スペースを継続的に最適化することにより、最適なサーチ スペースとこのサーチ スペース内の最適なネットワーク構造が同時に取得されます。

2020 年に Google が提案した ViT (Vision Transformer) [13] は、NLP (自然言語処理) の分野で用いられる Transformer を視野に導入し、画像を同じ解像度の複数のサブブロックに分割し、それぞれをsub-block は、NLP フィールドのサブブロックとして使用され、処理用の文字 (トークン) です。Transformer セルフ アテンション メカニズムの導入により、ネットワークの分類効果が大幅に向上し、ImageNet[2] データセットのトップ 1 精度率は 88.55% に達しました。

ここに画像の説明を挿入
図 3 高密度ネット

ここに画像の説明を挿入
図 4 RNN コントローラー

ここに画像の説明を挿入
図5 NASNetの基本畳み込み構造単位

ここに画像の説明を挿入
図6

深層学習に基づいたきめの細かい画像分類

過去 10 年間で、ディープ ラーニングは画像分類において大きな進歩を遂げましたが、ImageNet [2] などの一般的な画像分類データセットのカテゴリの粒度はまだ比較的粗いです。たとえば、犬のカテゴリでは、ラブラドール、ゴールデン レトリバー、ボーダー コリーなどのサブカテゴリに細分化することもできます。粗粒度の分類では実際の生産や生活のニーズを満たすことができなくなってきており、学界や産業界は、ディープラーニングが粒度の細かい分類タスクで重要な役割を果たすことができると期待しています。粗粒度分類とは異なり、細粒度分類ではオブジェクトの詳細間の違いにさらに注意が払われ、モデルが一部の詳細にさらに注意を払う必要があるため、学術コミュニティは「注意」メカニズムを提案しています。

近年、アテンション機構は細粒分類の分野に広く導入されており、SE[14]、GE[15]、CBAM[16]、SK[17]などのアテンションモジュールが登場しており、これらのモジュールはさまざまなネットワーク構造に統合されており、分類効果が効果的に向上します。

SE モジュールは比較的早くから提案されており、2017 年に Momenta によって提案され、SE モジュールによって構築された SENet は、2017 年の最終世代 ImageNet [2] 分類競争のチャンピオン ネットワークにもなりました。畳み込みニューラル ネットワーク (CNN) は空間情報とチャネル情報の両方を融合しますが、SE モジュールはチャネル情報の融合により注意を払います。図 7 に示すように、まず特徴マップ U に対してスクイーズ操作を実行して、主に各チャネルの応答分布を記述するために使用されるチャネル記述子を取得します。次に、記述子に対して励起演算を実行して各チャネルの重みベクトルを取得し、その重みベクトルを使用して特徴マップの各チャネルを重み付けし、より大きな重みでチャネルを強化し、より低い重みでチャネルを抑制します。メソッドはチャネル アテンション メカニズムを実装します。

SE[14] モジュールを使用してチャネル アテンション メカニズムを実装した後、Momenta は 2018 年に空間アテンション モジュール GE[15] を提案しました。図 8 に示すように、GE [15] は、カスタムの Gather および Excite モジュールを使用して、空間受容野領域に対する注意メカニズムを実装しています。

2018 年には、チャネルと空間の注意を同時に融合する別の注意モジュール、つまり CBAM [16]が登場しました。図 9 に示すように、どの特徴マップでも、CBAM モジュールはチャネルおよび空間アテンション情報を連続的に抽出し、対応する特徴マップでそれぞれ重み付けし、チャネルと空間アテンションを同時に実現します。

チャネルおよび空間アテンションが連続して導入された後、SK[17] モジュールは、コンピュータ ビジョンの分野で一般的な方法であるマルチスケール機能をアテンション メカニズムに導入しました。図 10 に示すように、SK モジュールは、まずサイズの異なる 2 つのコンボリューション カーネルを使用して特徴マップを処理し、次に結果を加算し、一連の操作の後、各パスの重み a と b を取得し、各特徴マップが重み付けされた後、最終的な特徴マップが取得されます。

ここに画像の説明を挿入
図 7 SE (スクイーズ & 励起) モジュール

ここに画像の説明を挿入
図8 GE(Gather & Excite)モジュール

ここに画像の説明を挿入
図 9 CBAM モジュール

ここに画像の説明を挿入
図10 SKモジュール

CVPR競争における深層学習に基づく画像の細粒分類アルゴリズムの適用

6月19日、コンピュータビジョンの世界三大カンファレンスの一つとして、コンピュータビジョン分野の「オスカー」と呼ばれるCVPR 2022が米国で開催された。Autohome チームは、カンファレンス セミナーの一環として Kaggle で開催された CVPR 2022 Sorghum-100 Cultivar Identification-FGVC 9 (ソルガム品種識別のための細粒画像分類) チャレンジで 2 位を獲得し、会社の歴史における画期的な成果を達成しました。

きめの細かい画像分類は、コンピュータ ビジョンの分野で常に研究のホットスポットとなっています。主な問題は、きめの細かいラベル付き画像のクラス間距離が小さく、クラス内距離が大きいため、困難であることです。例えば今回のFGVC9コンペティションの中でも、ソルガム品種識別やハーバリウム識別コンペティションのデータは、画像のカテゴリを判定するために高い専門知識を必要とします。図 11 に示すように、2 つの円内の同じ色のサンプル間の距離はクラス内距離と呼ばれ、異なる色のサンプル間の距離はクラス距離と呼ばれます。

ここに画像の説明を挿入
図11 クラス間距離とクラス間距離

今回のコンペでは主にバックボーンネットワークとしてRegNetY-16.0GFが使用され、高解像度画像が精度向上に大きく貢献し、画像解像度を512から960に上げたところ、プライベートリストの84.1から精度が向上しました。 .91.9まで改善されました。したがって、高解像度の画像は、きめ細かい分類のパフォーマンスを向上させるのに非常に役立つと考えられます。

前述のように、アテンションメカニズムの導入により、きめの細かい画像分類モデルの精度が大幅に向上することができ、バックボーンネットワークとして RegNetY-16.0GF の SE[14] モジュールに加えて、このコンペでは新たな A アルゴリズムも提案されました。注意領域クリッピング戦略。注目領域のクリッピングは、細粒度の画像分類の分野で一般的に使用される手法であり、図 12 に示すように、SCDA [18] は最大接続ドメインの手法を使用して注目領域を切り出し、無関係な領域の影響を回避します。モデルが注目領域にさらに注意を払うようにモデルをトレーニングします。最大接続領域法は、図 12 に示す鳥のように、注目領域が比較的明らかな場合には処理効果が高くなりますが、ソルガム-100 データセットに適用するのは困難です。図 13 に示すように、ソルガム-100 データセットの注目領域は比較的分散しているため、最大接続領域の手法を使用して注目領域を切り取ると、より良い注目領域が得られる一方で、注目領域の一部が失われます。 、モデルの分類精度が低下します。したがって、注目領域のランダムなクリッピングを提案します。この方法のフローチャートを図 14 に示します。入力画像がエポックによってトレーニングされた後、モデルを取得でき、そのモデルを使用してすべてのトレーニング画像が予測され、元のトレーニング画像がトリミングされ、トリミングされた画像が結果は次のエポック データのトレーニングとして使用され、トレーニングが終了するまで同様に使用されます。ランダムなトリミング プロセスを図 15 に示します。図 13 に示すように、n 番目のエポックによってトレーニングされたモデルを使用してトレーニング画像と、完全に接続された層が取得される前の注目画像出力が予測されます。注目画像は閾値Tを用いて二値化され、白黒画像Gが得られる。ランダムクロップ画像の幅と高さをそれぞれ w と h とすると、グラフ G 上で N 回のクロップを実行でき、白い領域が最も多く含まれる領域 (x, y, w, h) が n+1 番目のエポックになります。 . このグラフはトレーニングエリアに使用されます。

この注目領域のランダムなトリミング方法を使用すると、一方では、モデルが注目領域により多くの注意を払うようになり、他方では、分散した注目領域によって引き起こされる情報の損失を回避します。

ここに画像の説明を挿入
図 12 SCDA

ここに画像の説明を挿入
図 13 注目領域のランダムなクリッピング

ここに画像の説明を挿入
図 14 注目領域のランダムなクリッピング

ここに画像の説明を挿入
図15 ランダムクロップのフローチャート

データ拡張に関しては、一般的な左右反転やランダムクロッピングに加え、GoogleがCVPR2019の論文で提案したAutoAugment[19]も利用されており、 に最適な拡張戦略です。

擬似ラベルは、一般的に使用される自己教師あり学習方法として、画像分類の分野でも広く使用されています。各トレーニング セッションの後、トレーニングされた最適なモデルがテスト セットの予測に使用され、予測結果がラベル情報として使用されてトレーニング セットに追加され、テスト セットの精度が大幅に向上しなくなるまでこのサイクルが継続されます。このコンテストでは、疑似ラベルを追加した後、プライベート リストの精度が 91.9 から 95.1 に向上しました。

このコンテストには、一般的なテスト手法として Test Time Augmentation (TTA) も適用されました。データ拡張は、トレーニング段階での過剰適合の回避とモデルの一般化の向上に加えて、テスト段階でのモデルの精度も効果的に向上させることができます。

ドロップアウトは過学習を防ぐ効果的な手法であり、コンテストの最終段階では、ドロップアウトを追加することでプライベート リストのモデル精度が 95.1 から 95.3 に向上しました。

アンサンブルも競技会では一般的な手法で、さまざまなモデルによって予測されたエンベディングに重み付けをし、その重み付けされたエンベディングを予測に使用することによって、モデルの精度を効果的に向上させることもできます。このコンペティションの最終段階では、Ensemble の追加により、プライベート リストのモデル精度が 95.3 から 95.9 に向上しました。

深層学習に基づく画像の細粒分類アルゴリズムを車族認識ビジネスに応用

Autohome は、車両のインターネットの垂直分野のリーダーとして、車両識別などの自動車分野の人工知能アルゴリズムに深く関わってきました。車の識別は現在、4,000 以上の車シリーズの識別をサポートしており、メルセデス ベンツ、BMW、アウディなどの一般的な車シリーズのほとんどをカバーしています。

競技終了後、車両認識モデルも競技で使用したRegNetY-16.0GFを採用し、精度が3.25%向上した。図 17 に示すように、モデルの注目領域は主に車両前方に集中しているため、同じ車種シリーズ内でも前方の外観の違いが大きい車両は認識精度が悪くなります。同様に、車のシリーズが異なっても、車の前面の外観は比較的似ているため、車のシリーズを混同しやすいです。つまり、図 11 で説明したように、クラス間の距離が小さく、クラス内の距離が大きい場合は、きめの細かい分類問題でよく見られます。

概要と展望

近年、ディープラーニングの発展により、交通、医療、工業、農業、電子商取引などの分野でのきめ細かな分類の導入が大きく進んでいます。また、自然種の分類に焦点を当てた「iNat Challenge 2021」[20]、漁業資源の保護をテーマとした「漁業モニタリング」[21]、アリババが主催する AliProducts チャレンジ。一般的な画像分類の問題と同様に、詳細な分類の開発も次のような多くの課題に直面しています。

  1. データの注釈: きめの細かい画像の注釈には、多くの場合、関連する専門知識 (医学など) が必要であり、注釈に大きな困難をもたらします。したがって、自己教師あり学習は将来の大きなトレンドになります。FAIR の何開明氏のチームによって最近提案された自己教師あり学習フレームワーク MAE[23] は、Imagenet[2] 分類タスクで SOTA (State of Art) の結果を達成しました。 -近い将来の粒度の高い分類タスク。素晴らしい成果です。
  2. 認識の堅牢性: ご存知のとおり、画像分類の問題は画質に大きく影響されます。暗い光、露出オーバー、ぼやけなどの画質の問題は、画像分類の精度に影響を与えます。この影響は、詳細な分類の場合に特に深刻です。分類モデルの堅牢性を改善することも、この分野の実務者が直面する大きな課題です。
  3. トレーニング セットに含まれないカテゴリ: 画像分類データセットでトレーニングされたモデルがデータセット外の画像を区別することは多くの場合困難であり、画像のこの部分をトレーニング セット内の特定のカテゴリとして誤認識することがあります。流通)の問題。この種の問題では、多くの場合、モデルが認識できないカテゴリの画像をフィルタリングするために、検出モデルまたはセグメンテーション モデルが必要になります。「その他」カテゴリをトレーニング セットに追加すると、他のカテゴリが広すぎるため、認識効果が良くないことがよくあります。したがって、この問題を解決することは、詳細な分類の分野でも大きな課題となるでしょう。
  4. 小規模サンプル認識 (ロングテール): きめ細かい分類のために多くの種類のデータを収集するのは難しいため、トレーニング/テストサンプルの不均衡が生じます。これは、業界でよく言われる「ロングテール」問題です。結果として、このモデルは、データ量が多いカテゴリでは認識効果が高くなりますが、データ量が少ないカテゴリでは認識効果が低くなります。

ここに画像の説明を挿入
図 16 Autohome のメイン APP は写真を撮り、車を認識します

ここに画像の説明を挿入
図17 自動車認識モデルのアテンションマップ

参考文献

参考文献:
[1]。Krizhevsky、A.、Sutskever、I.、および Hinton、ディープ畳み込みニューラル ネットワークを使用した GE ImageNet 分類。生理学研究所、1106–1114 ページ、2012 年
[2]。Deng, J.、Dong, W.、Socher, R.、Li, L.-J.、Li, K.、および Fei-Fei, L. Imagenet: 大規模な階層型画像データベース。プロセスで。CVPR、2009
[3]。J・サンチェスとF・ペロニン。大規模な画像分類のための高次元署名圧縮。『Computer Vision and Pattern Recognition (CVPR)』、2011 IEEE Con​​ference on、1665 ~ 1672 ページ。IEEE、2011
[4]。K. Simonyan、A. Zisserman、大規模画像認識のための非常に深い畳み込みネットワーク。2015 年学習表現に関する国際会議にて
[5]。K. He、X. Zhang、S. Ren、J. Sun、「画像認識のための深層残差学習」、2016 IEEE Con​​ference on Computer Vision and Pattern Recognition (CVPR)、2016 年、pp. 770-778、doi: 10.1109/ CVPR.2016.90。
[6]。C. Szegedy 他、「畳み込みによる深化」、2015 IEEE Con​​ference on Computer Vision and Pattern Recognition (CVPR)、2015 年、1-9 ページ、doi: 10.1109/CVPR.2015.7298594。
[7]。C. Szegedy、V. Vanhoucke、S. Ioffe、J. Shlens、Z. Wojna、「コンピューター ビジョンのインセプション アーキテクチャの再考」、2016 IEEE Con​​ference on Computer Vision and Pattern Recognition (CVPR)、2016 年、pp. 2818-2826 、土井:10.1109/CVPR.2016.308。
[8]。Szegedy、C.、Ioffe、S.、Vanhoucke、V. 他。Inception-v4、Inception-Resnet、および学習に対する残留接続の影響。第 31 回人工知能に関する AAAI 会議、サンフランシスコ、2017 年 2 月 4 ~ 9 日、4278-4284.2017
[9]。G. Huang、Z. Liu、L. Van Der Maaten、KQ Weinberger、「高密度接続畳み込みネットワーク」、2017 IEEE Con​​ference on Computer Vision and Pattern Recognition (CVPR)、2017、pp. 2261-2269、doi: 10.1109/CVPR .2017.243。
[10]。B. Zoph、V. Vasudevan、J. Shlens、および QV Le、「スケーラブルな画像認識のための転送可能アーキテクチャの学習」、コンピュータ ビジョンとパターン認識に関する 2018 IEEE/CVF 会議、2018 年、pp. 8697-8710、doi: 10.1109/CVPR .2018.00907。
[11]。R. Doon、T. Kumar Rawat、S. Gautam、「深層畳み込みニューラル ネットワークを使用した Cifar-10 分類」、2018 IEEE Punecon、2018 年、pp. 1-5、doi: 10.1109/PUNECON.2018.8745428。
[12]。N. Schneider、F. Piewak、C. Stiller、U. Franke、「RegNet: ディープ ニューラル ネットワークを使用したマルチモーダル センサー登録」、2017 IEEE Intelligent Vehicles Symposium (IV)、2017、pp. 1803-1810、doi: 10.1109/IVS .2017.7995968。
[13]。Alexey Dosovitskiy、Lucas Beyer、Alexander Kolesnikov、Dirk Weissenborn、Xiaohua Zhai、Thomas Unterthiner、Mostafa Dehghani、Matthias Minderer、Georg Heigold、Sylvain Gelly、Jakob Uszkoreit、Neil Houlsby、「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」ICLR 2021
[14]。J. Hu、L. Shen、G. Sun、「スクイーズアンド励起ネットワーク」、2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition、2018、pp. 7132-7141、doi: 10.1109/CVPR.2018.00745。
[15]。Jie Hu、Li Shen、Samuel Albanie、Gang Sun、Andrea Vedaldi、Gather-Excite: Exploiting feature Context in Convolutional Neural Networks、NIPS 2018
[16]。Woo, S.、Park, J.、Lee, JY.、クウェン、IS (2018) CBAM: 畳み込みブロック アテンション モジュール。出典: Ferrari, V.、Hebert, M.、Sminchisescu, C.、Weiss, Y. (編) Computer Vision – ECCV 2018.
[17]。X. Li、W. Wang、X. Hu、J. Yang、「選択的カーネル ネットワーク」、2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)、2019 年、pp. 510-519、doi: 10.1109/CVPR .2019.00060。
[18]。X. Wei、J. Luo、J. Wu、Z. Zhou、「細粒度画像検索のための選択的畳み込み記述子集約」、IEEE Transactions on Image Processing、vol. 26、いいえ。6、pp. 2868-2881、2017 年 6 月、土井: 10.1109/TIP.2017.2688133。
[19]。ED Cubuk、B. Zoph、D. Mané、V. Vasudevan、QV Le、「AutoAugment: Learning Augmentation Strategies From Data」、2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)、2019 年、113-123 ページ、土井:10.1109/CVPR.2019.00020。
[20]。iNat チャレンジ 2021 https://www.kaggle.com/c/inaturalist-2021
[21]。漁業モニタリング https://www.kaggle.com/competitions/the-nature-conservancy-fisheries-monitoring/
[22]。https://tianchi.aliyun.com/competition/entrance/531884/introduction
[23]。Kaiming He、Xinlei Chen、Saining Xie、Yanghao Li、Piotr Dollar、Ross Girshick、「マスクされたオートエンコーダはスケーラブルなビジョン学習者」、コンピュータ ビジョンとパターン認識に関する IEEE/CVF カンファレンス、2022 年

おすすめ

転載: blog.csdn.net/autohometech/article/details/126520894