ディープラーニングの分野で最も素晴らしい論文はどれですか?

長年にわたる開発を経て、ディープラーニングは多くの素晴らしい研究論文を継続的に生み出してきました。これらの驚くべきアイデアとパラダイムシフトをさらに深く掘り下げると、これらの論文が研究者から幅広い注目を集め、その破壊的な概念と広範囲にわたる影響力で消えない痕跡を残していることがわかります。

この記事では、ディープ ラーニングの分野における驚くべき論文を調査し、その重要性と科学界への重大な影響を明らかにします。

ここでは出版年別に20本の論文を紹介しており、リンクをクリックすると論文の原文をご覧いただけます。

1. ニューラルネットワークにおける人間の海馬: 記憶ネットワーク

メモリ ネットワークは、FaceBook の 2014 年の論文で最初に提案され、読み書き可能な外部メモリ モジュールを提案し、それを推論コンポーネントと共同でトレーニングすることで、最終的に柔軟に動作できるメモリ モジュールを取得しました。

リンク: https://www.miner.cn/pub/5550411a45ce0a409eb388b7/

2. 深層学習フレームワーク Caffe、世界で最も人気のあるオープンソースの深層学習フレームワークの 1 つ

2014 年に Trevor Darrell、Ross B. Girshick、Jia Yangqing らが発表した論文「Caffe: Convolutional Architecture for Fast Feature Embedding」によれば、caffe は C++/Python をベースにし、Python と MATLAB バインディングを備えた畳み込みニューラル ネットワーク フレームワークです。ニューラル ネットワークやその他のディープ モデルを効率的にトレーニングし、商用アーキテクチャにデプロイできます。Caffe を使用すると、さまざまなプラットフォーム間での実験やシームレスな切り替えが容易になり、プロトタイプからクラウド環境への開発と展開が容易になります。さらに、論文の筆頭著者である Jia Yangqing は、卒業後 Caffe を利用して Google Brain にインターンとして参加し、TensorFlow フレームワークの開発にも参加しました。

リンク: https://www.miner.cn/pub/5550415c45ce0a409eb3a9a8/

3. エンド-2-エンドネットワークは、セマンティックセグメンテーションのために初めて提案されました。

画像セグメンテーションの分野における先駆的な研究であり、CVPR2015 Best Paper の候補論文に選ばれました。2014 年にニューラル ネットワークの第一人者である Jonathan Long によって出版された論文「セマンティック セグメンテーションのための完全畳み込みネットワーク」では、完全畳み込みネットワークを詳細に定義して説明し、空間的に密な予測タスクでのそのアプリケーションについて説明し、以前のモデルと比較しています。特徴抽出ネットワークは、VGG などを使用して学習された特徴を微調整、転送、活用し、意味情報とピクセルの詳細を融合する新しい方法を提案します。

リンク: https://www.miner.cn/pub/57a4e91dac44365e35c987bb/

4. ニューラルネットワーク知識蒸留の概念を初めて提案

2015年にHintonによって発表された論文「Distilling the Knowledge in a Neural Network」は最も古典的であり、知識の蒸留の概念を明確に提案した著作です。この記事では、全体モデルまたは高度に正規化された大規模モデルからの知識をより小さな蒸留モデルに変換する場合、蒸留が非常に効果的であることを示しています。MNIST では、蒸留されたモデルのトレーニングに使用される移行セットに 1 つ以上のクラスの例が欠けている場合でも、蒸留は適切に機能します。

リンク: https://www.miner.cn/pub/5550417545ce0a409eb3b767

5. より高速な R-CNN、RPN ネットワークの誕生

Faster R-CNN: Towards Real-Time Object Detection with Regional Proposal Networks という論文は、CV 分野の専門家である Ross B. Girshick、Sun Jian、He Kaiming、Ren Shaoqing によって 2016 年に出版されました。古典論文の一つと呼ばれる。候補フレームの生成に時間がかかり、依然として解決が必要な緊急の問題である場合、Faster R-CNN が誕生しました。高速な R-CNN は、候補領域の生成、特徴抽出、分類、および位置の精密化を深いネットワーク フレームワークに統合し、すべての計算は繰り返されることなく GPU 内で完全に完了するため、実行速度が大幅に向上します。

リンク: https://www.miner.cn/pub/5736986b6e3b12023e730129/

6. 画期的な取り組み: GAP を使用して CAM を取得する

2016 年の CVPR に関する論文「Learning Deep features for Discriminative Localization」は、弱教師あり学習の研究に大きな影響を与えました。この論文は一連の実験を通じて主に 2 つの結論を証明します: 1) CNN によって抽出された特徴には位置情報が含まれていますが、トレーニング中に位置情報をマークしませんでした; 2) これらの位置情報は認知タスク間で他の認知タスクに転送することができます。

リンク: https://www.miner.cn/pub/5736960e6e3b12023e520be8/

7.CVPR2016 最優秀論文、引用数 170,000+

2016 年に He Kaiming によって出版された記事「画像認識のための深層残差学習」では、最大 152 層の ResNet が提案されています。モデルは残差学習を通じて再構築され、前処理されます。恒等マッピングが最適であれば、ソルバーは複数の非線形層の重みを 0 に近づけることで単純に恒等マッピングに近づくことができます。

リンク: https://www.miner.cn/pub/573696026e3b12023e515eec/

8.ヒントンの評価: 10,000回聞かないと理解できない。

ティシュビー教授が2017年に発表した論文「Open the black box of Deep Neural Networks via Information」では、情報ボトルネックを利用してディープラーニングを説明し、情報分析手法を通じてディープニューラルネットワーク(DNN)のブラックボックスをオープンし、その手法を提案しています。 DNN を情報面で分析する方法。つまり、入力変数と出力変数の相互情報値を通じてネットワークの各層を分析します。

リンク: https://www.miner.cn/pub/5c890edd4895d9cbc6ac47d1/

9. 「不規則な」畳み込みニューラル ネットワーク

2017 年に発表された論文「変形可能な畳み込みネットワーク」では、標準的な畳み込みカーネルを破壊し、新しい畳み込み手法である変形可能な畳み込みを提案しました。これに基づいて、新しい RoI プーリング手法が提案されました。既存の CNN の通常の畳み込みモジュールを置き換え、追加の監視を必要としないため、不規則なオブジェクトのより正確な認識が実現します。

リンク: https://www.miner.cn/pub/599c7949601a182cd262c13a/

10. 3D 点群ベンチマークで最高レベル、複数のスケールの適応マージ

2017 年に NIPS で発表された論文「PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space」。この記事では、入力点セットのハイブ分割後に PointNet をリサイクルするための階層型ニューラル ネットワークを紹介します。このネットワークは、計量空間距離を使用して、局所的な特徴とより大きな意味スケールを学習できます。さらに、点セットのサンプリング密度は異なります。一貫した密度モデルを使用すると、パフォーマンスが低下します。複数のスケールで特徴を適応的にマージするセット学習層が提案されています。

リンク: https://www.miner.cn/pub/599c7945601a182cd2629f8d

11. 数学教師から見た ResNet

学者の E Weinan は、2017 年に「Communications in Mathematics and Statistics」に「動的システムによる機械学習に関する提案」という記事を発表しました。彼は、常微分と組み合わせて、連続動的システムを使用して高次元の非線形関数をモデル化するというアイデアについて説明しました。方程式とディープ残差ネットワークに関する新しい視点。ディープ ニューラル ネットワークが離散動的システムとして理解できることを示しています。

リンク: https://www.miner.cn/pub/5c3e7c43df5b8c0b3ccd0eb8/

12. Google Brain チームの古典的な論文

2017年にGoogle Brainチームが発表した論文「Attending is All You Need」。この論文は変圧器モデル構造の先駆者であり、直接新しい時代を切り開きました。これは、NLP の分野に急速な発展をもたらしただけでなく、最近の ChatGPT の出現への道も開きました。Transformer モデルは機械翻訳タスクに大きな可能性を秘めており、トレーニング費用も安価で、既存の最良のモデルの数分の一のコストで済みます。

リンク: https://www.miner.cn/pub/599c7987601a182cd2648373/

2017 年 13 月 人工知能「ワールドカップ」ILSVRC チャンピオン

自動運転会社Momentaが2017年に発表した論文「Squeeze-and-Excitation Networks」。、特徴マップの各チャネルに異なる重みを与えます。SENet は、特徴チャネル間の相関をモデル化し、重要な特徴を強化して精度を向上させるまったく新しい画像認識構造です。この構造は 2017 年の ILSVR コンペティションで優勝し、トップ 5 のエラー率は 2.251% に達し、2016 年の 1 位より 25% 低下しました。

リンク: https://www.miner.cn/pub/5a260c8117c44a4ba8a30771/

14. 従来の場所の制限を打ち破り、長期的な依存関係をモデル化する

ICML2019 の記事「Self-Attention Generative Adversarial Networks」に含まれています。著者は、画像生成タスクにおける長距離依存関係モデリングのための自己注意生成敵対的ネットワーク (SAGAN) を提案します。Self-attention GAN は大幅なパフォーマンスの向上を実現し、imagenet データセットでは、最良の結果が 36.8 から 52.52 (インセプション スコア) に向上し、27.62 から 18.65 (Fréchet インセプション距離) に減少しました。

リンク: https://www.miner.cn/pub/5b3d98cc17c44a510f801bd3/

15. ICLR2019の最優秀論文、モデル学習速度を2~4倍に向上

『宝くじの仮説: 疎で訓練可能なニューラル ネットワークの発見』では、「宝くじの仮説」と呼ばれる削減方法が提案されています。複雑なネットワークのすべてのパラメータを賞金プールとして扱います。賞金プールには一連のサブパラメータ (当選番号、記事内の当選チケット、つまりダブルカラーを表します) に対応するサブネットワークがあります。ボールは正しい番号を選択しました) このサブネットワークを個別にトレーニングするには、元のネットワークのテスト精度に達することができます。MNIST および CIFAR10 データ セットでは、「当たり宝くじ」のサイズは、多くの完全接続および畳み込みフィードフォワード アーキテクチャの 10% ~ 20% です。さらに、元のネットワークよりも速く、より正確に学習します。

リンク: https://www.miner.cn/pub/5c75755bf56def97989e3bd4/

16. レコメンデーション システムを始めるために必読のベンチマーク ペーパー

新浪微博機械学習チームは、論文「FiBiNET: クリックスルー率予測のための特徴重要性と双線形特徴相互作用の結合」を RecSys19 で公開しました。この記事では、スクイーズ励起ネットワーク (SENET) 構造を使用して機能の重要性を動的に学習し、双一次関数を使用して複数の機能をより適切にモデル化することにより、深層学習に基づいた広告推奨/クリックスルー率予測アルゴリズムを提案しています。

リンク: https://www.miner.cn/pub/5cf48a36da56291d58299524/

17. グラフ ニューラル ネットワークは千回近く引用され、広範囲に影響を与えています

論文「Simplifying Graph Convolutional Networks」が ICML 2019 で発表されました。この論文で著者らは、GCN が深層学習の系譜からかなりの複雑性を引き継いでおり、それほど要求の厳しいタスクには負担がかかり、不必要である可能性があることを観察しています。著者らは、単純グラフ畳み込み (SGC) と呼ばれる、「従来の」開発パスに従っていた場合に GCN に先行する「可能性がある」線形モデルの導出に取り組みました。これは、非線形性を連続的に除去し、連続する層間の重み行列を崩壊させることができます。

リンク: https://www.miner.cn/pub/5d9edc8347c8f76646042a37

18. テキスト マッチング ツール、Siamese ネットワークは高品質の文章埋め込みを生成します

EMNLP 2019 論文「Sentence-BERT: Siamese BERT-Networks を使用した文の埋め込み」。この記事では、Sentence-BERT の BERT ネットワークが紹介されています。このネットワークは、シャム ネットワークとトリプレット ネットワーク構造を使用して、コサイン類似度を使用して比較できる意味的に意味のある文埋め込みを導出します。これにより、BERT の精度を維持しながら、最も類似したペアを見つける労力が、BERT/RoBERTa では 65 時間から SBERT では約 5 秒に短縮されます。

リンク: https://www.miner.cn/pub/5db9297d47c8f766461f7bb9/

19.GPT-3: 大規模な言語モデルの小規模なサンプル学習

2020年にOpenAIによって出版された論文「Language Models are Few-Shot Learners」。この記事では、以前の非スパース言語モデルの 10 倍である 175 億個のパラメータを使用して自己回帰言語モデル GPT-3 をトレーニングし、少数のサンプルでそのパフォーマンスをテストしました。GPT-3 は複数の自然言語処理データセットで優れたパフォーマンスを実現し、人間が書いたものであるかどうかを人間が区別するのが難しいニュース記事を生成します。

リンク: https://www.miner.cn/pub/5ed0e04291e011915d9e43ee/

20.CLIP—新しい視覚的な事前トレーニング モデル

2021年にOpenAIによって公開された記事「Learning Transferable Visual Models From Natural Language Supervision」。テキストを監視信号として使用して、転送可能な視覚モデルをトレーニングします。トレーニング完了後、著者はそれをゼロショット分類タスクに適用すると同時に、CLIP が表現学習、ロバスト性、認知学習の点で優れたパフォーマンスを備えていることを証明するために多数の実験を実施しました。能力。

リンク: https://www.miner.cn/pub/603d8d919e795eac93d4c16f/


コンテンツ参照: https://www.zhihu.com/question/440729199

おすすめ

転載: blog.csdn.net/AI_Conf/article/details/132299791