深度学习领域，最惊艳的论文是哪篇？

深度学习经过多年的发展，不断涌现出了众多令人惊叹的研究论文。我们深入探究这些引人注目的思想和范式转变，会发现这些论文引起了研究者们的广泛关注，以其颠覆性的概念和深远的影响，留下了不可磨灭的印记。

本文将探索深度学习领域中令人惊艳的论文，揭示其重要性以及对科学界产生的深远影响。

在这里我们按照论文发表年份介绍20篇论文，您可点击链接来查看论文原文。

1.神经网络中的人脑海马体：Memory Networks

Memory Networks是 FaceBook 2014 年的论文首次提出，提出了一种可读写的外部记忆模块，并将其和inference组件联合训练，最终得到一个可以被灵活操作的记忆模块。

链接：https://www.aminer.cn/pub/5550411a45ce0a409eb388b7/

2.深度学习框架Caffe，全球最受欢迎的开源深度学习框架之一

由Trevor Darrell、Ross B. Girshick、贾扬清等人在2014年发表的论文”Caffe: Convolutional Architecture for Fast Feature Embedding“，caffe是基于C++/Python实现的卷积神经网络框架，具有 Python 和 MATLAB 绑定，可以在商用架构上高效地训练和部署通用卷积神经网络和其他深度模型。Caffe 使得在不同平台之间进行实验和无缝切换变得更加容易，从而方便开发和部署从原型机到云环境。并且，论文一作贾扬清凭借Caffe，毕业后进入谷歌大脑实习，还参与了TensorFlow框架的开发。

链接：https://www.aminer.cn/pub/5550415c45ce0a409eb3a9a8/

3.第一次提出end-2-end来做语义分割的网络

图像分割领域开山力作，入选了CVPR2015 Best Paper候选论文。神经网络大神Jonathan Long在2014年发表的论文”Fully Convolutional Networks for Semantic Segmentation“，文章定义并详细描述了全卷积网络，解释了它们在空间密集预测任务中的应用，并将它们与之前的模型联系起来。特征提取网络使用VGG等，微调，迁移和利用已学习到的特征，提出了一种新的语义信息和像素细节融合的方式。

链接：https://www.aminer.cn/pub/57a4e91dac44365e35c987bb/

4.第一次提出神经网络知识蒸馏概念

由Hinton在2015年发表的论文“Distilling the Knowledge in a Neural Network”是最经典的，也是明确提出知识蒸馏概念的工作。文章表明，对于将知识从整体模型或高度正则化的大型模型转换为较小的蒸馏模型，蒸馏非常有效。在MNIST上，即使用于训练蒸馏模型的迁移集缺少一个或多个类别的任何示例，蒸馏也能很好地工作。

链接：https://www.aminer.cn/pub/5550417545ce0a409eb3b767

5.Faster R-CNN，RPN网络的诞生

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks，该论文由CV领域大牛Ross B. Girshick、孙剑、何恺明和任少卿于2016年发表，此篇论文堪称经典论文之一。当候选框的生成需要耗费大量时间仍然是一个亟需解决的问题，Faster R-CNN横空出世。Faster R-CNN将候选区域生成与特征提取、分类、位置精修统一到一个深度网络框架之内，所有计算没有重复，完全在GPU中完成，大大提高了运行速度。

链接：https://www.aminer.cn/pub/5736986b6e3b12023e730129/

6.开山之作：利用GAP获取CAM

2016年CVPR上的一篇论文”Learning Deep Features for Discriminative Localization“，对弱监督学习的研究有很大的启发。这篇论文主要是通过一系列的实验，证明了两个结论：1）CNN提取的feature含有位置信息，尽管我们在训练的时候并没有标记位置信息；2）这些位置信息，可以转移到其他的认知任务当中。

链接：https://www.aminer.cn/pub/5736960e6e3b12023e520be8/

7.CVPR2016 最佳论文，被引17万+

何恺明2016年发表的文章《Deep residual learning for image recognition》，提出的多达152层ResNet。通过残差学习来重构模型，进行预处理，如果恒等映射是最优的，求解器可以简单地将多个非线性层的权值趋近于零来逼近恒等映射。

链接：https://www.aminer.cn/pub/573696026e3b12023e515eec/

8.Hinton评价：必须再听10000遍才能真正搞懂

Prof. Tishby在2017年发表的利用 information bottleneck 来解释深度学习的文章“Opening the black box of Deep Neural Networks via Information” ，通过信息分析方法打开了深度神经网络（DNNs）的黑盒，并提出了一种在信息平面上分析 DNNs 的方法，即通过输入和输出变量的互信息值来分析网络的每一层。

链接：https://www.aminer.cn/pub/5c890edd4895d9cbc6ac47d1/

9.“不正经”的卷积神经网络

2017年发表的论文“Deformable Convolutional Networks “，打破标准卷积核，提出了一种新的卷积方式:可变形卷积，并在此基础上提出了一种新的RoI池化方法:可变形RoI池化，DCN优点在于：可以很容易替换现有CNN中的普通卷积模块，并且不需要额外的监督，从而更准确的达到对不规则物体的识别的效果。

链接：https://www.aminer.cn/pub/599c7949601a182cd262c13a/

10.3D点云基准测试最佳水平，多个尺度自适应合并

2017年在NIPS发表的论文”PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space“。本文引入分层神经网络在输入点集上蜂巢划分后循环使用PointNet。使用了度量空间距离，本网络可以学习到局部特征，更大的语义尺度。进一步，点集的采样密度不同，当使用一致性密度的模型，会减低性能，提出了集合学习层来在多个尺度自适应合并特征。

链接：https://www.aminer.cn/pub/599c7945601a182cd2629f8d

11.数学老师眼中的 ResNet

鄂维南院士在2017 年的《Communications in Mathematics and Statistics》发表了一篇文章“A Proposal on Machine Learning via Dynamical Systems”，他讨论了使用连续动力学系统建模高维非线性函数的想法，结合常微分方程与深度残差网络的新视角，表示深度神经网络可以理解为离散的动力学系统。

链接：https://www.aminer.cn/pub/5c3e7c43df5b8c0b3ccd0eb8/

12.谷歌大脑团队经典论文

Google大脑团队在2017年发表的论文”Attention is All You Need“。这篇论文开创性地提出了transformer模型结构，直接开启了新的纪元。不仅带来了NLP领域的迅猛发展，还为最近ChatGPT的出现埋下了伏笔。Transformer 模型在机器翻译任务中具有很大的潜力，并且训练成本很低，是现有最好模型成本的一小部分。

链接：https://www.aminer.cn/pub/599c7987601a182cd2648373/

13.2017人工智能“世界杯”ILSVRC 冠军

由自动驾驶公司Momenta在2017年发表的论文”Squeeze-and-Excitation Networks“。，给特征图的每个通道赋予不同的权重。SENet是一种全新的图像识别结构，它通过对特征通道间的相关性进行建模，把重要的特征进行强化来提升准确率。这个结构是2017 ILSVR竞赛的冠军，top5的错误率达到了2.251%，比2016年的第一名还要低25%。

链接：https://www.aminer.cn/pub/5a260c8117c44a4ba8a30771/

14.打破传统位置局限，建模长远依赖关系

收录于ICML2019的一篇文章“Self-Attention Generative Adversarial Networks”。作者提出一种自注意力生成对抗网络 (SAGAN),用于图像生成任务中的长程依赖建模。self-attention GAN实现较大的性能提升，在imagenet数据集上，将最好的结果从36.8提高到52.52（Inception score），从27.62降低到18.65（Fréchet Inception distance）。

链接：https://www.aminer.cn/pub/5b3d98cc17c44a510f801bd3/

15.ICLR2019最佳论文，让模型训练速度提升2-4倍

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks，提出了一种叫作“彩票假设”（lottery ticket hypothesis）的缩小方法。将一个复杂网络的所有参数当作一个奖池，奖池中存在一组子参数所对应的子网络（代表中奖号码，文中的wining ticket，也就是双色球选对了号码），单独训练该子网络，可以达到原始网络的测试精度。在MNIST和CIFAR10数据集上，“中奖彩票”的大小是很多全连接和卷积前馈架构的10%~20%。并且，比原始网络的学习速度更快，准确度更高。

链接：https://www.aminer.cn/pub/5c75755bf56def97989e3bd4/

16.推荐系统入门必读基准论文

新浪微博机器学习团队发表在RecSys19上的论文“FiBiNET: Combining Feature Importance and Bilinear feature Interaction for Click-Through Rate Prediction”。文章提出了一种基于深度学习的广告推荐/点击率预测算法，通过使用Squeeze-Excitation network (SENET) 结构动态学习特征的重要性以及使用一个双线性函数来更好的建模交叉特征。

链接：https://www.aminer.cn/pub/5cf48a36da56291d58299524/

17.引用近千次，图神经网络领域影响力深远

发布于ICML 2019的论文“Simplifying Graph Convolutional Networks”。在本论文中，作者观察到GCN从其深度学习血统中继承了相当大的复杂性，对于要求较低的任务来说，这可能是繁重且不必要的。作者致力于推导出如果遵循“传统”的发展路径，“本可以”出现在GCN之前的线性模型，称为Simple Graph Convolution (SGC)，可以连续去除非线性和在连续层之间坍缩权矩阵。

链接：https://www.aminer.cn/pub/5d9edc8347c8f76646042a37

18.文本匹配利器，孪生网络生成高质量句嵌入

EMNLP 2019的论文“Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks”。在文章中，介绍了 Sentence-BERT的BERT 网络，该网络使用孪生网络和三元组网络结构来导出具有语义意义的句子嵌入，可以使用余弦相似度进行比较。这将寻找最相似对的工作量从使用 BERT / RoBERTa 的 65 小时减少到使用 SBERT 的大约 5 秒，同时保持了 BERT 的准确性。

链接：https://www.aminer.cn/pub/5db9297d47c8f766461f7bb9/

19.GPT-3：大语言模型小样本学习

OpenAI在2020年发表的论文“Language Models are Few-Shot Learners”。本文训练了具有 175 亿参数的自回归语言模型 GPT-3，是之前非稀疏语言模型的 10 倍，并测试了其在少量样本条件下的表现。GPT-3 在多个自然语言处理数据集上取得了出色的表现，可以生成人类难以区分是否由人类撰写的新闻文章。

链接：https://www.aminer.cn/pub/5ed0e04291e011915d9e43ee/

20.CLIP—新型视觉预训练模型

OpenAI在2021年发表的一篇文章“Learning Transferable Visual Models From Natural Language Supervision ”。它是用文本作为监督信号来训练可迁移的视觉模型。在训练完成之后，作者将其应用在zero-shot分类任务中，同时作者还做了大量的实验，来证明CLIP在表征学习、鲁棒性、认知学习能力等方面具有很好的性能。

链接：https://www.aminer.cn/pub/603d8d919e795eac93d4c16f/

内容参考：https://www.zhihu.com/question/440729199

深度学习领域，最惊艳的论文是哪篇？

猜你喜欢