2020年に機械学習コミュニティを爆発させる論文や図書館は何ですか?さまざまな分野でベンチマークランキングを上回ったモデルと方法はどれですか?この記事はあなたに答えを与えます。
ほぼ人間の報告、著者:トゥレ
臨時2020年がついに終わりました!今年は、新たな冠肺炎の流行の影響により、CVPR、ICLR、NeurIPSなどの主要な学会がすべてオンラインで開催されるように変更されました。ただし、機械学習コミュニティの研究者や開発者は止まることなく、多くの重要な研究結果に貢献しました。
少し前まで、リソースWebサイトPapers with Codeは、自然言語処理、画像分類、ターゲット検出、セマンティックセグメンテーション、インスタンスセグメンテーション、ポーズ推定などの多くの分野をカバーする、2020年のトップ10の論文、ライブラリ、ベンチマークの概要を公開しました。歩行者の再認識など。
人気のある論文トップ10
论文1:EfficientDet:スケーラブルで効率的なオブジェクト検出
論文へのリンク:https://arxiv.org/pdf/1911.09070v7.pdf
はじめに:この論文の初版は、もともと2019年11月に発行されました。マシンの心臓部が報告されました。この記事は、最新版です。グーグルブレインの研究者は、コンピュータービジョンの分野でモデルの効率について議論し、それぞれ加重双方向特徴ピラミッドネットワークと複合ズーム法を提案し、新しいレベルのSOTAを実現するための新しいEfficientDetターゲット検出器を開発しました。この記事はCVPR2020カンファレンスに受け入れられました。
论文2:トレインテストの解像度の不一致を修正する
論文へのリンク:https://arxiv.org/pdf/2003.08237v5.pdf
はじめに:FixRes(Fixing Resolution)は、あらゆるモデルのパフォーマンスを向上させることができる方法であり、いくつかのエポックでの畳み込みトレーニング後の微調整ステップとして使用できるため、非常に高い柔軟性があります。FixResは、既存のトレーニングパイプラインに簡単に統合することもできます。FAIRの研究者は、FixResメソッドをSOTAモデルEfficientNetと組み合わせ、新しいアーキテクチャFixEfficientNetを提案し、ImageNetデータセットでトップ1の精度88.5%を達成し、当時のSOTAパフォーマンスを達成しました。
ペーパー3:ResNeSt:スプリットアテンションネットワーク
論文へのリンク:https://arxiv.org/pdf/2004.08955v2.pdf
はじめに:Facebook、カリフォルニア大学デービス校、ByteDance、およびその他の機関の研究者は、注意をいくつかの特徴マップグループに分割できるモジュール式のSplit-Attentionブロックを提案しました。これらのSplit-AttentionブロックをResNetのスタイルで積み重ねると、ResNeStと呼ばれるResNetの新しいバリアントが得られます。その中で、ResNeSt-50は、ImageNetデータセットでトップ1の精度率81.13%を達成しました。これは、以前の最高のResNetバリアントよりも1%以上高くなっています。この改善は、ターゲット検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどのダウンストリームタスクにとって意味があります。
论文4:ビッグトランスファー(BiT):一般的な視覚表現学習
論文へのリンク:https://arxiv.org/pdf/1912.11370v3.pdf
はじめに:Google Brainの研究者は、転移学習モデルBig Transfer(BiT)を提案しました。BiTは、事前にトレーニングされた画像モデルのセットです。各クラスのサンプル数が少ない場合でも、移行後に新しいデータセットで優れたパフォーマンスを実現できます。BiTは、ILSVRC-2012、CIFAR-10、および19の評価タスクを含むビジュアルタスク適応ベンチマーク(VTAB)データセットでそれぞれ87.5%、99.4%、および76.3%のトップ1精度を達成しました。小さなデータセットでは、BiTも達成しました。クラスごとに10サンプルのILSVRC-2012およびCIFAR-10データセットでそれぞれ76.8%および97.0%のトップ1の正解率。この記事はECCV2020会議に受け入れられました。
论文5:セマンティックセグメンテーションのオブジェクトコンテキスト表現
論文へのリンク:https://arxiv.org/pdf/1909.11065v5.pdf
はじめに:中国科学院計算技術研究所、Microsoft Asia Research、およびその他の機関の研究者は、セマンティックセグメンテーションの問題を解決し、コンテキスト集約戦略に焦点を当てることを目指しています。彼らは、対応するオブジェクトクラスの表現を使用してピクセルの特徴を記述する、オブジェクトコンテキスト表現(OCR)のシンプルで効果的な方法を提案しました。実験結果は、この論文で提案されたOCR法が、Cityscapes、ADE20K、PASCAL-Contextなどのさまざまな挑戦的なセマンティックセグメンテーションベンチマークで非常に優れたパフォーマンスを達成することを示しています。この記事はECCV2020会議に受け入れられました。
论文6:騒々しい学生との自己訓練はImageNet分類を改善します
論文へのリンク:https://arxiv.org/pdf/1911.04252v4.pdf
説明:2019年11月のv1バージョンの紙のほぼ人間がレポートを掲載しました。これはv2バージョンです。グーグルブレインとカーネギーメロン大学の研究者は、注釈データが十分な場合にうまく機能する半教師あり学習方法であるノイズの多い学生トレーニングを提案しました。実験結果は、Noisy Student TrainingがImageNetデータセットで88.4%の精度を達成することを示しています。これは、35億(35B)の弱くラベル付けされたIns画像を必要とするSOTAモデルよりも2.0%高くなっています。堅牢性テストセットでは、Noisy Student Trainingにより、ImageNet-Aのトップ1の精度が61.0%から83.7%に向上し、ImageNet-Cの平均破損エラー(MCR)が45.7から28.3に減少し、ImageNet-Aの平均破損が減少しました。エラー(MCR)が28.3になりました。-Pの平均フリップレート(MFR)が27.8から12.2に減少しました。この記事はCVPR2020カンファレンスに受け入れられました。
论文7:YOLOv4:最適な速度と物体検出の精度
論文へのリンク:https://arxiv.org/pdf/2004.10934v1.pdf
はじめに:2020年4月、YOLOv4はYOLOの公式Githubでオープンソース化され、CVコミュニティの注目を集めました。研究者は、YOLOv4を現在の最良のターゲット検出器と比較し、YOLOv4がEfficientDetと同じパフォーマンスを達成し、速度がEfficientDetの2倍であることを発見しました。さらに、YOLOv3と比較して、APとFPSの新しいバージョンはそれぞれ10%と12%増加しています。
论文8:画像は16x16ワードの価値があります:大規模な画像認識のためのトランスフォーマー
論文へのリンク:https://arxiv.org/pdf/2010.11929.pdf
はじめに:Google Brainの研究者は、NLPの分野でのトランスフォーマースケーリングの成功に触発され、可能な限り最小限の変更で標準のトランスフォーマーを画像に直接適用しようとしています。彼らは新しいVisionTransformer(ViT)モデルを提案し、複数の画像認識ベンチマークで現在のSOTAメソッドに近いかそれ以上のパフォーマンスを達成しました。
论文9:統一されたテキストからテキストへのトランスフォーマーによる転移学習の限界を探る
論文へのリンク:https://arxiv.org/pdf/1910.10683v3.pdf
はじめに:Googleの研究者は、すべてのテキストベースの言語の問題をテキストからテキストへの形式に変換する統合フレームワークを導入することにより、自然言語処理(NLP)の転送学習方法を調査しました。彼らは、最大110億のパラメーターを持つ新しいテキストからテキストへの転送トランスフォーマー(T5)モデルを提案しました。T5モデルは、要約の生成、質問応答、およびテキスト分類をカバーする17のNLPタスクに新しいSOTAを実装します。さらに、研究者たちは、インターネットからクロールされた数百ギガバイトのクリーンな英語テキストを含む、新しいColossal Clean Crawled Corpus(C4)コーパスをオープンソース化しました。
论文10:セマンティックセグメンテーションのための階層的マルチスケール注意
論文へのリンク:https://arxiv.org/pdf/2005.10821v1.pdf
はじめに:マルチスケール推論は、セマンティックセグメンテーションの結果を改善するためによく使用されます。Nvidiaの研究者は、ネットワークが隣接するスケール間の相対的な重みを予測することを学習できる階層的な注意メカニズムを提案しました。研究者は、CityscapesとMapillary Vistasの2つのデータセットに対する階層的注意メカニズムの効果をテストしました。その中で、弱くラベル付けされた画像が多数あるCityscapesデータセットに対して、一般化パフォーマンスを向上させる自動ラベル付け方法も導入しました。実験結果は、階層的なマルチスケール注意メカニズムがSOTAの結果を達成し、Mapillaryで61.1%mIOU、Cityscapesで85.1%mIOUを達成したことを示しています。
人気のあるライブラリトップ10
トランスフォーマー
プロジェクトアドレス:https://github.com/huggingface/transformers
はじめに:トランスフォーマーライブラリは、これらのNLPの進歩をより広い機械学習コミュニティに開放するために、HuggingFaceチームによって作成されました。ライブラリには、適切に設計された複数のSOTA Transformerアーキテクチャが含まれており、統合されたAPIを使用します。トランスフォーマーライブラリは、コミュニティによって構築された複数の事前トレーニング済みモデルをまとめたものであり、コミュニティに公開されています。現在、図書館の星の数は39.3kと多く、トランスフォーマー紙はEMNLP2020ベストデモペーパー賞を受賞しました。
PyTorch画像モデル
プロジェクトアドレス:https://github.com/rwightman/pytorch-image-models
はじめに:pytorch-image-modelsライブラリは、MLおよびAIシステムの構築に熱心なカナダ人のRoss Wightmanによって作成されました。このライブラリには、画像モデル、レイヤー、ユーティリティ、オプティマイザー、スケジューラー、データローダー/増幅、推論トレーニング/検証リソースが含まれています。スクリプトなど。このライブラリは、さまざまなSOTAモデルを統合して、ImageNetデータセットでトレーニング結果を再現することを目的としています。現在、ライブラリ内の星の数は6.6kです。
検出器2
プロジェクトアドレス:https://github.com/facebookresearch/detectron2
はじめに:Detectron2は、SOTAターゲット検出アルゴリズムの実現を目的としたFacebook AIResearchの新世代ソフトウェアシステムです。このライブラリは、以前のバージョンのDetectronで書き直され、maskrcnn-benchmarkライブラリ(非推奨)のすべてのモデル実装が含まれています。現在、このライブラリの星の数は14.5kにも上ります。
Insightface
プロジェクトアドレス:https://github.com/deepinsight/insightface
はじめに:Deep Insightチームによって作成されたInsightfaceは、主にMXNetフレームワークに基づくオープンソースの2Dおよび3Dディープフェイス分析ツールボックスです。ライブラリのマスターブランチは、MXNet1.2-1.6バージョンとPython3.xバージョンに適しています。現在、ライブラリのスターボリュームは8.4kです。
imgclsmob
プロジェクトアドレス:https://github.com/osmr/imgclsmob
はじめに:imgclsmobライブラリは、主にコンピュータービジョンタスク用の畳み込みネットワークを研究しているシニアソフトウェアエンジニアのOlegSémeryによって作成されました。ライブラリには、トレーニング、評価、変換のためのさまざまな分類、セグメンテーション、検出、ポーズ推定モデルとスクリプトの実現または再現が含まれています。現在、このライブラリの星の数は2kです。
ダークネット
プロジェクトアドレス:https://github.com/pjreddie/darknet
はじめに:ダークネットライブラリは、コンピュータビジョン研究を専門とするJoseph Redmonによって作成されました。これは、C言語とCUDAに基づくオープンソースのニューラルネットワークフレームワークです。すばやく簡単にインストールでき、CPUおよびGPUコンピューティングをサポートします。現在、このライブラリの星の数は19.8kにも上ります。
PyTorchGAN
プロジェクトアドレス:https://github.com/eriklindernoren/PyTorch-GAN
はじめに:PyTorchGANライブラリは、AppleのMLエンジニアであるErikLinder-Norénによって作成され、Generative Adversarial Networks(GAN)のさまざまなPyTorch実装を論文に集めました。作成者は、モデルアーキテクチャが常に論文で提唱された見解を反映しているとは限らないと考えているため、各レイヤーが正しく構成されていることを確認するだけでなく、論文のコアアイデアを取得することに重点を置いています。残念ながら、作成者がライブラリを維持する時間がなかったため、ライブラリは古くなっています。現在、ライブラリのスターボリュームは8.4kです。
MMDetection
プロジェクトアドレス:https://github.com/open-mmlab/mmdetection
はじめに:MMDetectionは、香港中文大学のマルチメディアラボによって作成された、PyTorchに基づくオープンソースのターゲット検出ツールボックスであり、OpenMMLabプロジェクトの一部です。ライブラリは、MMDetチーム(2018 COCOチャレンジ検出トラックで優勝)のコードベースから始まり、その後、多くの一般的な検出方法とモジュールをカバーする統合プラットフォームに徐々に発展しました。ライブラリには、トレーニングコードと推論コードが含まれているだけでなく、200を超えるネットワークモデルの重みも提供されます。現在、このライブラリの星の数は13.3kにも上ります。
FairSeq
プロジェクトアドレス:https://github.com/pytorch/fairseq
はじめに:PyTorchチームによって作成されたFairseqは、研究者と開発者が翻訳、抽象生成、言語モデリング、およびその他のテキスト生成タスク用のカスタムモデルをトレーニングできるようにするシーケンスモデリングツールキットです。現在、このライブラリの星の数は11kにも上ります。
グルーオンCV
プロジェクトアドレス:https://github.com/dmlc/gluon-cv
はじめに:GluonCVは、分散機械学習コミュニティ(DMLC)によって作成され、コンピュータービジョンの分野でSOTAディープラーニングモデルの実装を提供し、エンジニア、研究者、学生がこれらのモデルに基づいて製品や研究アイデアをすばやくプロトタイプ化できるようにすることを目的としています。ライブラリには次の主な機能があります。ペーパーのSOTA結果を再現するためのトレーニングスクリプトを提供します。PyTorchとMXNetをサポートします。多数の事前トレーニング済みモデルと、実装の複雑さを大幅に軽減する適切に設計されたAPIを提供します。コミュニティサポート。現在、ライブラリのスターボリュームは4.5kです。
人気のベンチマークトップ10
ImageNetデータセットの画像分類ベンチマーク
トップ1とトップ5の正解率は、どちらもGoogle Brainチームによって提案されたメタ疑似ラベルの半教師あり学習方法です。トップ1の正解率は90.2%、トップ5の正解率は98.8%です。
- ベースアドレス:https://paperswithcode.com/sota/image-classification-on-imagenet
- Meta Pseudo Labelsの紙のアドレス:https://arxiv.org/pdf/2003.10580v3.pdf
COCOtest-devデータセットのターゲット検出ベンチマーク
最高のボックスAP値は、GoogleBrainチームによって提案されたCascadeEff-B7 NAS-FPNであり、COCOインスタンスセグメンテーションタスクで49.1のマスクAPと57.3のボックスAPを達成し、以前より0.6および1.5高くなりました。 SOTA。
- ベースアドレス:https://paperswithcode.com/sota/object-detection-on-coco
- カスケードEff-B7NAS-FPN紙のアドレス:https://arxiv.org/pdf/2012.07177v1.pdf
Cityscapesテストデータセットのセマンティックセグメンテーションベンチマーク
最も高い平均IoUは、Nvidiaによって提案されたHRNet-OCR(階層的マルチスケール注意メカニズム)であり、Cityscapesテストデータセットで85.1%のmIoUを達成しました。
ベースアドレス:https://paperswithcode.com/sota/semantic-segmentation-on-cityscapes
- HRNet-OCRペーパーアドレス:https://arxiv.org/pdf/2005.10821v1.pdf
CIFAR-10データセットの画像分類ベンチマーク
最初にランク付けされた正しいパーセンテージインデックスは、Google Research Instituteによって提案されたEffNet-L2(SAM)であり、99.7%のSOTAスコアを達成しました。
- ベースアドレス:https://paperswithcode.com/sota/image-classification-on-cifar-10
- EffNet-L2(SAM)ペーパーアドレス:https://arxiv.org/pdf/2010.01412v2.pdf
CIFAR-100データセットの画像分類ベンチマーク
最初にランク付けされた正しいパーセンテージインデックスは、Google Researchによって提案されたEffNet-L2(SAM)であり、96.08%のSOTAスコアを達成しました。
ベースアドレス:https://paperswithcode.com/sota/image-classification-on-cifar-100
PASCAL VOC2012テストデータセットのセマンティックセグメンテーションベンチマーク
最高の平均IoUは、GoogleBrainチームによって提案されたEfficientNet-L2 + NAS-FPNであり、PASCAL VOC 2012テストデータセットで90.5%のmIoUを達成しました。
- ベースアドレス:https://paperswithcode.com/sota/semantic-segmentation-on-pascal-voc-2012
- EfficientNet-L2 + NAS-FPNペーパーアドレス:https://arxiv.org/pdf/2006.06882v2.pdf
MPII HumanPoseデータセットのポーズ推定ベンチマーク
最高のPCKH-0.5は、Samsung AI Centerによって提案されたソフトゲートスキップ接続であり、MPII Human PoseデータセットでPCKH-0.5の94.1%を達成しました。
- ベースアドレス:https://paperswithcode.com/sota/pose-estimation-on-mpii-human-pose
- ソフトゲートスキップ接続の紙のアドレス:https://arxiv.org/pdf/2002.11098v1.pdf
Market-1501データセットの歩行者再識別ベンチマーク
最高のmAP(平均精度)は、2018年にSun Yat-sen大学によって提案されたst-ReIDです。Market-1501データセットで95.5%のmAPと98.0%のランク1の精度を達成しました。これは、以前のSOTAよりも大幅に優れています。方法。
- ベースアドレス:https://paperswithcode.com/sota/person-re-identification-on-market-1501
- st-ReIDペーパーアドレス:https://arxiv.org/pdf/1812.03282v1.pdf
MNISTデータセットの画像分類ベンチマーク
最高の精度率は、ブルネル大学とブラッドリー大学によって提案された分岐/マージCNN +均質フィルターカプセルです。MNISTデータセットで99.84のSOTA精度率を達成し、パーセント誤差も0.16%で最低です。
- ベースアドレス:https://paperswithcode.com/sota/image-classification-on-mnist
- CNN +同種フィルターカプセルの分岐/マージ紙のアドレス:https://arxiv.org/pdf/2001.09136v4.pdf
Human3.6Mデータセットの3D人間ポーズ推定ベンチマーク
サムスンAIセンターによって提案された人間のポーズの学習可能な三角測量は、このデータセットで17.7mmの最低の平均MPJPEを達成しました。
ベースアドレス:https://paperswithcode.com/sota/3d-human-pose-estimation-on-human36m
- 人間のポーズの学習可能な三角測量紙のアドレス:https://arxiv.org/pdf/1905.05754v1.pdf
参照リンク:https://medium.com/paperswithcode/papers-with-code-2020-review-938146ab9658
02-15に公開