深度学习1 翻译 Deep learning Yann LeCun1,2, Yoshua Bengio3 & Geoffrey Hinton4,5

Deep learning

Yann LeCun1,2, Yoshua Bengio3 & Geoffrey Hinton4,5

摘要

深度学习允许由多个处理层组成的计算模型学习具有多个抽象级别的数据表示。这些方法极大地提高了语音识别、视觉目标识别、目标检测以及药物发现和基因组学等领域的技术水平。深度学习通过使用反向传播算法来说明机器应该如何改变用于从前一层的表示计算每一层的表示的内部参数，从而发现大数据集中的复杂结构。深度卷积网在图像、视频、语音和音频处理方面取得了突破性进展，而递归网络则在文本和语音等连续数据上发出了亮光。

正文

机器学习技术影响着现代社会的许多方面：从网络搜索到社交网络上的内容过滤，再到电子商务网站上的推荐，DIT越来越多地出现在照相机和智能手机等消费产品中。机器学习系统用于识别图像中的物体，将语音转录成文本，将新闻条目、帖子或产品与用户的兴趣相匹配，并选择相关的搜索结果。这些应用程序越来越多地使用了一种叫做深度学习的技术。

传统的机器学习技术在以原始形式处理自然数据的能力上受到限制。几十年来，构建模式识别或机器学习系统需要仔细的工程和大量的领域专家来设计特征提取器，将原始数据(例如图像的像素值)转换成合适的内部表示或特征向量，学习子系统(通常是分类器)可以从中检测或分类输入的模式。

表示法学习是一组方法，它允许机器输入原始数据，并自动发现检测或分类所需的表示法。深度学习方法是具有多层表示的表示学习方法，通过组合简单但非线性的模块，每个模块将一个级别(从原始输入开始)的表示转换为更高、更抽象级别的表示。有了足够的这样的转换组合，非常复杂的函数可以学习。对于分类任务，更高层次的表示放大了输入中对识别很重要的方面，并抑制了不相关的变化。例如，图像以像素值数组的形式出现，第一层表示中的学到的特征通常表示图像中特定方向和位置的边缘的存在或不存在。第二层典型地通过检测边缘的特定排列来检测基元，而不考虑边缘位置的微小变化。第三层可以将基元组合成更大的组合，这些组合对应于熟悉对象的部分，随后的层将检测作为这些部分的组合的对象。深度学习的关键方面是，这些功能层不是由人类工程师设计的：它们是通过一个通用的学习过程从数据中学习出来的。

深度学习在解决问题方面取得了重大进展，这些问题多年来一直在抵制人工智能界的最佳尝试。它很擅长发现高维数据中的复杂结构，因此适用于科学、商业和政府的许多领域。除了在图像识别1-4和语音识别5-7中击败记录外，它还在预测潜在药物分子的活性8、分析粒子加速器数据9、10、重建大脑电路11以及预测非编码dna突变对基因表达和疾病的影响方面击败了其他机器学习技术。也许更令人惊讶的是，深度学习在自然语言理解的各种任务中产生了非常有希望的结果，特别是主题分类、情感分析、问题回答和语言翻译16、17。

我们认为，深度学习在不久的将来会有更多的成功，因为它只需要很少的手工工程，因此它可以很容易地利用现有计算和数据数量的增加。目前正在为深层神经网络开发的新的学习算法和体系结构只会加快这一进程。

扫描二维码关注公众号，回复： 3068122 查看本文章

监督学习

最常见的机器学习形式，无论是深度还是非深度，都是有监督的学习。想象一下，我们想要构建一个系统，可以将图像分类为包含，比如说，一栋房子，一辆汽车，一个人或一个宠物。首先，我们收集了大量房屋、汽车、人和宠物的图片，每一张都贴上了分类标签。在训练过程中，机器会显示一幅图像，并以分数向量的形式产生输出，每一类分数一次。我们希望的类别有最高的分数所有类别，但这是不可能发生在训练前。我们计算一个目标函数，用来度量输出分数和期望的分数模式之间的误差(或距离)。然后，机器修改其内部可调参数，以减少这一误差。这些可调节的参数，通常称为权重，是实数，可以被看作是定义机器输入输出功能的“旋钮”。在一个典型的深度学习系统中，可能有数亿个这样的可调权重，以及数以亿计的用于训练机器的标有标签的示例。

为了适当地调整权重向量，学习算法计算一个梯度向量，对于每个权重，该梯度向量表示如果权重增加很小，误差会增加或减小多少。然后以与梯度向量相反的方向调整权重向量。

目标函数在所有训练实例中的平均值可以看作是高维权重值空间中的一种丘陵景观。负梯度矢量指示这一景观中最陡的下降方向，使其更接近最小值，即输出误差平均较低。

在实践中，大多数实践者使用一种称为随机梯度下降(SGD)的程序。这包括显示几个例子的输入向量，计算输出和误差，计算这些例子的平均梯度，并相应地调整权值。对于训练集中的许多小样本，重复这个过程，直到目标函数的平均值停止下降。它被称为随机的，因为每一个小的例子集给出了对所有例子的平均梯度有噪声的估计。与复杂得多的优化技术相比，这个简单的过程通常能以惊人的速度找到一组好的权值18。经过培训后，系统的性能将在一个称为测试集的不同示例集上进行度量。这是用来测试机器的泛化能力？它在训练中从未见过的新输入上产生合理答案的能力。

目前许多机器学习的实际应用都是在手工设计的特征之上使用线性分类器。两类线性分类器计算特征向量分量的加权和。如果加权和高于阈值，则将输入归类为属于特定类别。

自20世纪60年代以来，我们就知道线性分类器只能将输入空间分割成非常简单的区域，即由超平面分隔的半空间19。但是像图像和语音识别这样的问题需要输入输出函数对输入的不相关的变化不敏感，例如物体位置、方向或照明的变化，或者语音的音调或口音的变化，同时对特定的微小变化非常敏感(例如，白狼和一种狼一样的白狗被称为萨摩犬)之间的差异。在像素一级，两个萨摩耶犬在不同姿势和不同环境中的图像可能彼此非常不同，而在相同位置和相同背景下的两个萨莫耶犬和一个狼的图像可能彼此非常相似。线性分类器，或任何其他在原始像素上操作的“浅层”分类器都不可能区分后两者，而将前两种分类器归为一类。这就是为什么浅层分类器需要一个很好的特征提取器来解决选择性-不变性难题-产生对图像中对识别很重要的方面有选择性的表示，但对不相关的方面(如动物的姿势)保持不变。为了使分类器更强大，可以使用通用的非线性特征，就像核方法20，但是泛型特征，如高斯核产生的特征，不允许学习者在远离训练样本21的情况下很好地泛化。传统的选择是手工设计优秀的特征提取器，这需要相当多的工程技能和领域专长。但是，如果好的特性可以通过一个通用的学习过程自动学习，那么这一切都是可以避免的。这是深入学习的主要优势。

图1多层神经网络和反向传播a，多层神经网络(用连接的点表示)可以扭曲输入空间，使数据类别(红线和蓝线上的例子)线性可分。请注意，输入空间中的规则网格(如左图所示)也是由隐藏单元转换的(如中间面板所示)。这是一个说明性的例子，只有两个输入单元、两个隐藏单元和一个输出单元，但用于对象识别或自然语言处理的网络包含数万或几十万个单元。根据C.Olah(http：/colah.github.io/).B的许可，导数链规则告诉我们两个小的影响(x对y的微小变化和y对z的微小变化)是如何组成的。在x中的一个小变化Δx首先通过乘以Δy/∂x(即偏导数的定义)得到一个在y中的小变化。类似地，更改Δy在z中创建更改Δz。把一个方程替换成另一个方程给出了导数的链式规则-Δx是如何通过乘以∂y/∂x和∂z/∂x的乘积而转化成∂z的。它也适用于x，y和z为向量(导数为雅可比矩阵)。C，用于计算两个隐层和一个输出层的神经网络中的正向传递的方程，每个方程构成一个模块，通过该模块可以反向传播梯度。在每一层，我们首先计算每个单元的总输入z，这是下一层中各单元输出的加权和。然后将非线性函数f(.)应用于z，得到单位的输出。为了简单起见，我们省略了偏倚项。神经网络中使用的非线性函数包括近年来常用的校正线性单位(Relu)f(Z)=max(0，z)，以及较常规的S形，如双曲正切，f(Z)=(exp(Z)−exp(−z)/(exp(Z)+exp(−z)和Logistic函数，f(Z)=1/(1+exp(−z)d.。在每个隐层，我们计算关于每个单元的输出的误差导数，这是相对于上一层的单元的总输入的误差导数的加权和。然后，我们将关于输出的误差导数转换为关于输入的误差导数，方法是将其乘以f(Z)的梯度。在输出层，通过对成本函数的微分计算相对于单元输出的误差导数。如果单位l的成本函数是0.5(yl−tl)2，则给出了yl−tl，其中tl是目标值。一旦知道了∂E/∂zk，下面层中单元j对连接的权重wjk的误差导数就是yj∂E/∂zk。

图2在一个卷积网络内。典型卷积网络结构的每一层(水平方向)的输出(而不是过滤器)应用于萨莫耶犬的图像(左下角；和RGB(红色、绿色、蓝色)输入，右下方)。每个矩形图像是对应于在每个图像位置检测到的学习特征之一的输出的特征映射。信息自下而上流动，较低层次的特征充当定向边缘检测器，并计算输出中每个图像类别的得分。整流线性单元。

深度学习体系结构是由简单模块组成的多层堆栈，其中所有模块(或大部分模块)都是学习的对象，其中许多模块计算非线性输入输出映射。堆栈中的每个模块都会转换其输入，以增加表示的选择性和不变性。有了多个非线性层，比如5到20层，一个系统可以实现其输入的极其复杂的功能，这些功能同时对微小的细节敏感-区分萨莫耶犬和白狼-而且对背景、姿势、灯光和周围物体等大的无关变化不敏感。

反向传播训练多层体系结构

从模式识别的早期22，23，研究人员的目标一直是以可训练的多层网络取代手工工程功能，但尽管其简单，解决方案直到80年代中期才被广泛理解。事实证明，多层结构可以通过简单的随机梯度下降来训练。只要模块的输入和内部权值都是相对平滑的函数，就可以利用反向传播过程计算梯度。在1970年代和1980年代，几个不同的小组独立地发现了这一想法，认为这是可行的，也是可行的。

反向传播法计算目标函数相对于多层模块的权重的梯度，不过是导数链式规则的一种实际应用。关键的见解是，目标相对于模块的输入的导数(或梯度)可以通过相对于该模块的输出(或后续模块的输入)的梯度向后工作来计算(如图所示)。1)。反向传播方程可以重复应用，在所有模块中传播梯度，从顶部的输出(网络产生其预测)一直到底部(外部输入被馈送)。一旦计算出这些梯度，就可以直接计算每个模块的权重的梯度。

许多深度学习的应用都采用前馈神经网络结构。它学习将固定大小的输入(例如，图像)映射到固定大小的输出(例如，几个类别中的每一个类别的概率)。从一层到另一层，一组单元计算来自前一层的输入的加权和，并通过非线性函数传递结果。目前最常用的非线性函数是整流线性单元(Relu)，它是简单的半波整流器f(Z)=max(z，0)。在过去的几十年中，神经网络使用了更平滑的非线性，如tanh(Z)或1/(1+exp(−z)，但RELU通常在多层网络中学习速度更快，允许在没有无监督预训练的情况下对深度监督网络进行训练28。不属于输入或输出层的单元通常称为隐藏单元。隐藏层可以被看作是以非线性的方式扭曲输入，使得类别通过最后一层成为线性可分的(图2)。1)。

在20世纪90年代后期，神经网络和反向传播在很大程度上被机器学习社区抛弃，而被计算机视觉和语音识别社区所忽视。人们普遍认为，学习有用的、多阶段的、事先知识很少的特征提取器是不可行的。特别是，人们普遍认为简单的梯度下降会被困在糟糕的局部最小重量配置中，对于这种配置，不小的变化就会减少平均误差。

在实践中，低本地极小值很少是大型网络的问题。不管初始条件如何，该系统几乎总是达到非常相似质量的解。最近的理论和实证结果强烈地表明，局部极小通常不是一个严重的问题。相反，景观是由一个组合大量的鞍点，梯度是零，表面曲线在大多数维度上升，在其余29，30下降曲线的组合挤在一起的。分析表明，只有少数几个向下弯曲方向的鞍点数量很大，但几乎所有鞍点都具有非常相似的目标函数值。因此，算法在哪一个鞍点上被卡住并没有太大的关系。

2006年前后，加拿大高级研究所(CIFAR)召集了一组研究人员，重新激发了人们对深度前馈网络的兴趣(参考文献31-34)。研究人员引入了无监督的学习程序，这种程序可以在不需要标有标签的数据的情况下创建多层特征检测器。学习每一层特征检测器的目的是能够重建或模拟下一层的特征检测器(或原始输入)的活动。利用这一重建目标，通过“预训练”几层逐渐复杂的特征检测器，可以将深度网络的权重初始化为合理的值。最后一层输出单元可以添加到网络的顶部，整个深层系统可以使用标准反向传播33-35进行微调。这对于识别手写数字或探测行人非常有效，特别是在标记数据量非常有限的情况下。

这种预训练方法的第一个主要应用是语音识别，它是由于快速图形处理器(GPU)的出现而成为可能的，这种处理器可以方便地编程37，并使研究人员能够以10或20倍的速度训练网络。2009年，该方法被用于将从声波中提取的系数的短时间窗口映射为一组可能由窗口中央的帧表示的各种语音片段的概率。它在使用小词汇量的标准语音识别基准测试中取得了破纪录的结果，并且很快被开发出来，在大词汇量的任务中产生破纪录的结果。到2012年，许多主要语音集团都在开发2009年推出的深网版本，并已在Android手机上部署。对于较小的数据集，无监督的预训练有助于防止过度适应40，当标有标签的示例数量较少时，可以显著提高泛化能力，或者在转换环境中，对于一些“源”任务，我们有很多示例，而对于一些“目标”任务，示例非常少。一旦深度学习得到恢复，原来只需要少量的数据集就可以进行训练前阶段的培训了。

然而，有一种特殊类型的深层前馈网络比相邻层之间具有完全连通性的网络更容易训练和泛化得多。这就是卷积神经网络(ConvNet)41，42。在神经网络不受欢迎的时期，它取得了许多实际的成功，最近被计算机视觉界广泛采用。

卷积神经网络

ConvNets用于处理多个阵列形式的数据，例如，由三个二维阵列组成的彩色图像，其中包含三个彩色通道中的像素强度。许多数据模式是以多个数组的形式出现的：1D表示信号和序列，包括语言；2D表示图像或音频光谱图；3D表示视频或体积图像。ConvNets背后有四个关键思想，它们利用了自然信号的特性：本地连接、共享权重、池和多层的使用。

典型ConvNet的体系结构(图)。2)由一系列阶段构成。前几个阶段由两种类型的层组成：卷积层和汇聚层。卷积层中的单元被组织成特征映射，其中每个单元通过称为滤波器组的一组权重连接到前一层的特征映射中的局部块。这个局部加权和的结果然后通过非线性，例如relu。特征映射中的所有单元共享相同的筛选器库。层中的不同特征映射使用不同的筛选器组。这种架构的原因是双重的。首先，在像图像这样的阵列数据中，局部值组往往高度相关，形成易于检测的独特的局部基元。第二，图像和其他信号的局部统计量对位置是不变的。换句话说，如果一个主题可以出现在图像的一个部分，那么它可以出现在任何地方，因此不同位置的单元共享相同的权重，并在数组的不同部分检测相同的图案。从数学上讲，特征映射执行的滤波操作是离散卷积，因此得名。

虽然卷积层的作用是检测来自前一层的特征的局部连接，但池层的作用是将语义上相似的特征合并为一个。由于构成基元的特征的相对位置可以有所变化，因此可以通过对每个特征的位置进行粗粒度化来可靠地检测基元。典型的池单元在一个特征映射中(或在一些特征映射中)计算单元的局部块的最大值。相邻的池单元从多行或多列的块中获取输入，从而减少了表示的维数，并创建了对小偏移和失真的不变性。两个或三个阶段的卷积，非线性和汇集是堆叠，其次是更多的卷积和全连通层。通过ConvNet反向传播梯度就像通过常规的深层网络一样简单，允许训练所有滤波器组中的所有权重。

深层神经网络利用了许多自然信号是组成层次结构的特性，其中较高层次的特征是通过合成较低层次的特征来获得的。在图像中，边缘的局部组合形成基元，基元组装成零件，零件形成物体。从语音到电话、音素、音节、单词和句子，语音和文本都存在类似的层次结构。当前一层中的元素在位置和外观上发生变化时，池允许表示形式变化很小。
ConvNets中的卷积层和池层直接受到视觉神经科学中简单细胞和复杂细胞的经典概念的启发43，总体架构让人想起视觉皮层腹侧通路中的LGN-V1-V2-V4-IT层次结构。当convnet模型和猴子看到相同的图片时，convnet中高级单元的激活解释了猴子下颞叶皮质45中160个神经元随机集合的一半的方差。ConvNets的根源在于新认知体46，其体系结构有些类似，但没有像反向传播这样的端到端监督学习算法。一个原始的一维ConvNet，称为时间延迟神经网络，用于识别音素和单字47，48。

早在20世纪90年代早期，卷积网络就已经有了大量的应用，首先是用于语音识别和文档读取的延时神经网络。文档阅读系统使用ConvNet和一个实现语言约束的概率模型联合训练。到20世纪90年代末，这一体系的金额占美国所有支票的10%以上。微软49公司后来部署了一些基于ConvNet的光学字符识别和手写识别系统。在20世纪90年代早期，ConvNets也在自然图像中进行了目标检测实验，包括人脸和手50，51，以及人脸识别52。

基于深卷积网络的图像理解

自21世纪初以来，ConvNets已经成功地应用于图像中目标和区域的检测、分割和识别。这些都是标记数据比较丰富的任务，例如交通标志识别53、生物图像分割(特别是连接图像55)、自然图像中的人脸、文本、行人和人体检测(36、50、51、56-58)。ConvNets最近的一个主要的实际成功是人脸识别59。

重要的是，图像可以在像素级标注，这将在技术上有应用，包括自主移动机器人和自动驾驶汽车60，61。移动眼和NVIDIA等公司正在其即将推出的汽车视觉系统中使用这种基于ConvNet的方法。其他越来越重要的应用包括自然语言理解和语音识别。

尽管取得了这些成功，但在2012年ImageNet竞赛之前，ConvNets在很大程度上被主流的计算机视觉和机器学习社区抛弃。当深卷积网络被应用到包含1000个不同类别的网络上的大约100万张图像的数据集上时，它们取得了惊人的效果，几乎将最佳竞争方法的错误率降低了一半。这一成功来自于GPU、ReLU的有效使用，一种新的正则化技术-Destout 62，以及通过变形现有的示例来生成更多训练示例的技术。这一成功给计算机视觉带来了一场革命；ConvNets现在是几乎所有识别和检测任务(4，58，59，63-65)的主导方法，并在某些任务上接近人类的性能。最近的一个惊人的演示结合了ConvNets和用于生成图像标题的递归网络模块(图)。3)。

最新的ConvNet体系结构有10到20层ReLU、数亿个权重以及单元之间的数十亿连接。虽然在两年前训练这样大的网络只需要几个星期，但是在硬件、软件和算法并行化方面的进展已经把训练时间减少到几个小时。

基于convnet的视觉系统的性能使得包括google、facebook、microsoft、ibm、雅虎、twitter和Adobe在内的大多数大型科技公司以及越来越多的初创公司启动了研究和开发项目，并部署了基于convnet的图像理解产品和服务。

ConvNet易于在芯片或现场可编程门阵列中进行高效的硬件实现。NVIDIA、Mobilye、Intel、高通(Qualcomm)和三星(Samsung)等多家公司正在开发convnet芯片，以便在智能手机、相机、机器人和自动驾驶汽车上实现实时视觉应用。

分布式表示与语言处理

深度学习理论表明，与不使用分布式表示的经典学习算法相比，深网络有两个不同的指数优势。这两个优点都来自于组合的能力，并依赖于具有适当组件结构的底层数据生成分布40。首先，学习分布式表示使人们能够将学习到的特征值的新组合泛化到训练过程中看到的值之外(例如，2n组合可以用n个二进制特征)68，69。第二，在深层网络中组成表示层会带来另一个指数优势70(深度指数)。

多层神经网络的隐藏层学习以一种易于预测目标输出的方式来表示网络的输入。通过训练一个多层神经网络来从早期单词的局部上下文预测序列中的下一个单词，就很好地证明了这一点。上下文中的每个单词都作为N中的一个向量呈现给网络，即一个分量的值为1，其余的分量为0。在第一层，每个单词创建一个不同的激活模式，或单词向量(图。4)。在语言模型中，网络的其他层学习将输入的单词向量转换为预测的下一个单词的输出单词向量，该输出单词向量可用于预测词汇中的任何单词作为下一个单词出现的概率。该网络学习包含许多有效成分的单词向量-每一个都可以被解释为单词的一个单独特征，正如第一次在学习符号的分布式表示的上下文中演示27所演示的那样-。这些语义特征在输入中没有显式地显示出来。学习过程发现，它们是将输入和输出符号之间的结构化关系分解成多个“微观规则”的一种很好的方法。当单词序列来自大量的真实文本，并且单个的微观规则是不可信赖的时，学习单词向量的效果也是非常好的。[71]。例如，在预测新闻故事中下一个单词的训练中，周二和周三的学习单词向量非常相似，瑞典和挪威的单词向量也是如此。这种表示被称为分布式表示，因为它们的元素(特性)并不相互排斥，而且它们的许多配置对应于在观察到的数据中看到的变化。这些词向量由学习到的特征组成，这些特征不是由专家事先确定的，而是由神经网络自动发现的。从文本中学到的词的向量表示现在自然语言应用中非常广泛地使用14，17，72-76。

表象问题是逻辑启发和神经网络启发的认知范式争论的核心。在逻辑启发的范例中，符号的实例是它唯一的属性是它与其他符号实例是相同或不相同的。它没有与它的使用相关的内部结构；与符号的推理，它们必须与明智选择的推理规则中的变量联系在一起。相比之下，神经网络只是使用大的活动向量、大的权重矩阵和标量非线性来进行快速的“直觉”推理，而这种推理是毫不费力的常识推理的基础。

在引入神经语言模型71之前，语言统计建模的标准方法没有利用分布式表示：它是基于计算长度为N(称为N-g)的短符号序列出现的频率。可能的N-克数是在VN的数量级上，其中V是词汇量，因此考虑到一个超过少数单词的上下文将需要非常大的训练语料库。N图把每个单词看作一个原子单元，因此它们不能在语义上相关的单词序列中泛化，而神经语言模型可以，因为它们将每个单词与一个实值特征向量相关联，而语义上相关的单词最终在那个向量空间中彼此接近(如图所示)。4)

图4.将学习到的单词向量可视化。在左边是一个例子的文字表示学习建模语言，非线性投影到2D的可视化使用t-SNE算法103。右边是由英法编解码器递归神经网络75学习的短语的二维表示。人们可以观察到，语义上相似的词或词序列被映射到附近的表示。通过使用反向传播来联合学习每个单词的表示和预测诸如序列中的下一个单词(用于语言建模)或整个翻译单词序列(用于机器翻译)18、75中的下一个单词的目标数量的函数，获得了单词的分布式表示。

递归神经网络

当反向传播第一次被引入时，它最令人兴奋的用途是训练递归神经网络(RNNs)。对于涉及顺序输入的任务，如语音和语言，通常更好的方法是使用RNN(图中的图)。5)。RNN每次处理一个输入序列，在其隐藏单元中保持一个“状态向量”，该“状态向量”隐式地包含序列中所有过去元素的历史信息。当我们考虑隐单元在不同离散时间步长上的输出时，就好像它们是深层多层网络中不同神经元的输出一样。(5，右)，我们可以清楚地知道如何应用反向传播来训练RNN。

RNN是非常强大的动态系统，但是训练它们被证明是有问题的，因为反向传播的梯度在每个时间步长上要么增长要么缩小，所以在许多时间步长中，它们通常会爆炸或消失77，78。

由于他们在结构上的进步79，80和训练他们的方法81，82，RNN被发现非常擅长预测文本83中的下一个字符或序列75中的下一个单词，但它们也可以用于更复杂的任务。例如，在一次只读一个单词的英语句子后，可以训练一个英语‘编码器’网络，使其隐藏单元的最终状态向量很好地表示该句子所表达的思想。然后，这个思想向量可以用作联合训练的法语‘译码器’网络的初始隐藏状态(或作为额外输入)，该网络输出法语译文的第一个单词的概率分布。如果从这个分布中选择一个特定的第一个单词并将其作为输入提供给解码器网络，那么它将输出翻译的第二个单词的概率分布，等等，直到选择一个完整的句点17，72，76。总的来说，这个过程根据依赖于英语句子的概率分布产生法语单词序列。这种相当天真的机器翻译方式很快就与最先进的方法竞争，这就引起了人们的严重怀疑，即理解一个句子是否需要使用推理规则所操纵的内部符号表达式。它更符合这样一种观点，即日常推理涉及许多同时进行的类比，每一种类比都有可能得出一个结论84，85。

不要把法语句子的意思翻译成英语句子，你可以学会把图像的意思翻译成英语句子。3)。这里的编码器是一个深度ConvNet，它将像素转换为其最后一个隐藏层中的活动向量。该译码器是一个RNN，类似于用于机器翻译和神经语言建模的RNN。最近对这类系统的兴趣激增(见参考文献中提到的例子)。86)。

RNN，一旦在时间上展开(图)。5)，可以看作是一种非常深的前馈网络，在这种网络中，所有的层都具有相同的权值。尽管它们的主要目的是学习长期依赖关系，但理论和经验证据表明，很难长时间地学习存储信息。

为了纠正这种情况，一种想法是用显式内存扩大网络。这种类型的第一个建议是使用特殊隐藏单元的长期短期记忆(LSTM)网络，其自然行为是长时间记住输入[79]。一个称为记忆单元的特殊单元就像一个蓄能器或门控漏电神经元：它在下一个时间步有一个自身的连接，它的重量是一个，所以它复制自己的实值状态并积累外部信号，但是这种自我连接被另一个学习决定何时清除内存内容的单元所控制。

LSTM网络随后被证明比传统的RNN更有效，特别是当它们每步87都有几个层时，就可以实现从声学到转录中字符序列的整个语音识别系统。LSTM网络或门控单元的相关形式目前也用于编码器和解码器网络，它们在机器翻译方面表现非常好，17，72，76。

在过去的一年中，几位作者提出了不同的建议，以增加一个内存模块的RNN。提议包括神经图灵机，在神经图灵机中，网络被增加了一种类似磁带的内存，RNN可以选择从88读取或写入88；以及内存网络，在内存网络中，规则网络由一种联想内存进行增广。记忆网络已经在标准的问题回答基准测试中产生了出色的性能。记忆是用来记住网络后来回答问题的故事。

除了简单的记忆，神经图灵机和记忆网络正被用于通常需要推理和符号处理的任务。神经图灵机可以教“算法”。除其他外，当它们的输入由一个未排序的序列组成时，它们可以学习输出符号的排序列表，其中每个符号都伴随着一个实际值，该值指示其在列表88中的优先级。记忆网络可以在类似于文字冒险游戏的环境中被训练来跟踪世界的状态，并且在阅读完一个故事之后，他们可以回答需要复杂推理的问题。90.。在一个测试示例中，网络展示了一个15句版本的“指环王”，并正确回答了诸如“弗罗多现在哪里？”这样的问题。

2月25日收到；2015年5月1日接受。

1. Krizhevsky, A., Sutskever, I. & Hinton, G. ImageNet classification with deep
convolutional neural networks. In Proc. Advances in Neural Information
Processing Systems 25 1090–1098 (2012).
This report was a breakthrough that used convolutional nets to almost halve
the error rate for object recognition, and precipitated the rapid adoption of
deep learning by the computer vision community.
2. Farabet, C., Couprie, C., Najman, L. & LeCun, Y. Learning hierarchical features for
scene labeling. IEEE Trans. Pattern Anal. Mach. Intell. 35, 1915–1929 (2013).
3. Tompson, J., Jain, A., LeCun, Y. & Bregler, C. Joint training of a convolutional
network and a graphical model for human pose estimation. In Proc. Advances in
Neural Information Processing Systems 27 1799–1807 (2014).
4. Szegedy, C. et al. Going deeper with convolutions. Preprint at http://arxiv.org/
abs/1409.4842 (2014).
5. Mikolov, T., Deoras, A., Povey, D., Burget, L. & Cernocky, J. Strategies for training
large scale neural network language models. In Proc. Automatic Speech
Recognition and Understanding 196–201 (2011).
6. Hinton, G. et al. Deep neural networks for acoustic modeling in speech
recognition. IEEE Signal Processing Magazine 29, 82–97 (2012).
This joint paper from the major speech recognition laboratories, summarizing
the breakthrough achieved with deep learning on the task of phonetic
classification for automatic speech recognition, was the first major industrial
application of deep learning.
7. Sainath, T., Mohamed, A.-R., Kingsbury, B. & Ramabhadran, B. Deep
convolutional neural networks for LVCSR. In Proc. Acoustics, Speech and Signal
Processing 8614–8618 (2013).
8. Ma, J., Sheridan, R. P., Liaw, A., Dahl, G. E. & Svetnik, V. Deep neural nets as a
method for quantitative structure-activity relationships. J. Chem. Inf. Model. 55,
263–274 (2015).
9. Ciodaro, T., Deva, D., de Seixas, J. & Damazio, D. Online particle detection with
neural networks based on topological calorimetry information. J. Phys. Conf.
Series 368, 012030 (2012).
10. Kaggle. Higgs boson machine learning challenge. Kaggle https://www.kaggle.
com/c/higgs-boson (2014).
11. Helmstaedter, M. et al. Connectomic reconstruction of the inner plexiform layer
in the mouse retina. Nature 500, 168–174 (2013).

12. Leung, M. K., Xiong, H. Y., Lee, L. J. & Frey, B. J. Deep learning of the tissueregulated splicing code. Bioinformatics 30, i121–i129 (2014).
13. Xiong, H. Y. et al. The human splicing code reveals new insights into the genetic
determinants of disease. Science 347, 6218 (2015).
14. Collobert, R., et al. Natural language processing (almost) from scratch. J. Mach.
Learn. Res. 12, 2493–2537 (2011).
15. Bordes, A., Chopra, S. & Weston, J. Question answering with subgraph
embeddings. In Proc. Empirical Methods in Natural Language Processing http://
arxiv.org/abs/1406.3676v3 (2014).
16. Jean, S., Cho, K., Memisevic, R. & Bengio, Y. On using very large target
vocabulary for neural machine translation. In Proc. ACL-IJCNLP http://arxiv.org/
abs/1412.2007 (2015).
17. Sutskever, I. Vinyals, O. & Le. Q. V. Sequence to sequence learning with neural
networks. In Proc. Advances in Neural Information Processing Systems 27
3104–3112 (2014).
This paper showed state-of-the-art machine translation results with the
architecture introduced in ref. 72, with a recurrent network trained to read a
sentence in one language, produce a semantic representation of its meaning,
and generate a translation in another language.
18. Bottou, L. & Bousquet, O. The tradeoffs of large scale learning. In Proc. Advances
in Neural Information Processing Systems 20 161–168 (2007).
19. Duda, R. O. & Hart, P. E. Pattern Classification and Scene Analysis (Wiley, 1973).
20. Schölkopf, B. & Smola, A. Learning with Kernels (MIT Press, 2002).
21. Bengio, Y., Delalleau, O. & Le Roux, N. The curse of highly variable functions
for local kernel machines. In Proc. Advances in Neural Information Processing
Systems 18 107–114 (2005).
22. Selfridge, O. G. Pandemonium: a paradigm for learning in mechanisation of
thought processes. In Proc. Symposium on Mechanisation of Thought Processes
513–526 (1958).
23. Rosenblatt, F. The Perceptron — A Perceiving and Recognizing Automaton. Tech.
Rep. 85-460-1 (Cornell Aeronautical Laboratory, 1957).
24. Werbos, P. Beyond Regression: New Tools for Prediction and Analysis in the
Behavioral Sciences. PhD thesis, Harvard Univ. (1974).
25. Parker, D. B. Learning Logic Report TR–47 (MIT Press, 1985).
26. LeCun, Y. Une procédure d’apprentissage pour Réseau à seuil assymétrique
in Cognitiva 85: a la Frontière de l’Intelligence Artificielle, des Sciences de la
Connaissance et des Neurosciences [in French] 599–604 (1985).
27. Rumelhart, D. E., Hinton, G. E. & Williams, R. J. Learning representations by
back-propagating errors. Nature 323, 533–536 (1986).
28. Glorot, X., Bordes, A. & Bengio. Y. Deep sparse rectifier neural networks. In Proc.
14th International Conference on Artificial Intelligence and Statistics 315–323
(2011).
This paper showed that supervised training of very deep neural networks is
much faster if the hidden layers are composed of ReLU.
29. Dauphin, Y. et al. Identifying and attacking the saddle point problem in highdimensional non-convex optimization. In Proc. Advances in Neural Information
Processing Systems 27 2933–2941 (2014).
30. Choromanska, A., Henaff, M., Mathieu, M., Arous, G. B. & LeCun, Y. The loss
surface of multilayer networks. In Proc. Conference on AI and Statistics http://
arxiv.org/abs/1412.0233 (2014).
31. Hinton, G. E. What kind of graphical model is the brain? In Proc. 19th
International Joint Conference on Artificial intelligence 1765–1775 (2005).
32. Hinton, G. E., Osindero, S. & Teh, Y.-W. A fast learning algorithm for deep belief
nets. Neural Comp. 18, 1527–1554 (2006).
This paper introduced a novel and effective way of training very deep neural
networks by pre-training one hidden layer at a time using the unsupervised
learning procedure for restricted Boltzmann machines.
33. Bengio, Y., Lamblin, P., Popovici, D. & Larochelle, H. Greedy layer-wise training
of deep networks. In Proc. Advances in Neural Information Processing Systems 19
153–160 (2006).
This report demonstrated that the unsupervised pre-training method
introduced in ref. 32 significantly improves performance on test data and
generalizes the method to other unsupervised representation-learning
techniques, such as auto-encoders.
34. Ranzato, M., Poultney, C., Chopra, S. & LeCun, Y. Efficient learning of sparse
representations with an energy-based model. In Proc. Advances in Neural
Information Processing Systems 19 1137–1144 (2006).
35. Hinton, G. E. & Salakhutdinov, R. Reducing the dimensionality of data with
neural networks. Science 313, 504–507 (2006).
36. Sermanet, P., Kavukcuoglu, K., Chintala, S. & LeCun, Y. Pedestrian detection with
unsupervised multi-stage feature learning. In Proc. International Conference
on Computer Vision and Pattern Recognition http://arxiv.org/abs/1212.0142
(2013).
37. Raina, R., Madhavan, A. & Ng, A. Y. Large-scale deep unsupervised learning
using graphics processors. In Proc. 26th Annual International Conference on
Machine Learning 873–880 (2009).
38. Mohamed, A.-R., Dahl, G. E. & Hinton, G. Acoustic modeling using deep belief
networks. IEEE Trans. Audio Speech Lang. Process. 20, 14–22 (2012).
39. Dahl, G. E., Yu, D., Deng, L. & Acero, A. Context-dependent pre-trained deep
neural networks for large vocabulary speech recognition. IEEE Trans. Audio
Speech Lang. Process. 20, 33–42 (2012).
40. Bengio, Y., Courville, A. & Vincent, P. Representation learning: a review and new
perspectives. IEEE Trans. Pattern Anal. Machine Intell. 35, 1798–1828 (2013).
41. LeCun, Y. et al. Handwritten digit recognition with a back-propagation network.
In Proc. Advances in Neural Information Processing Systems 396–404 (1990).
This is the first paper on convolutional networks trained by backpropagation
for the task of classifying low-resolution images of handwritten digits.
42. LeCun, Y., Bottou, L., Bengio, Y. & Haffner, P. Gradient-based learning applied to
document recognition. Proc. IEEE 86, 2278–2324 (1998).
This overview paper on the principles of end-to-end training of modular
systems such as deep neural networks using gradient-based optimization
showed how neural networks (and in particular convolutional nets) can be
combined with search or inference mechanisms to model complex outputs
that are interdependent, such as sequences of characters associated with the
content of a document.
43. Hubel, D. H. & Wiesel, T. N. Receptive fields, binocular interaction, and functional
architecture in the cat’s visual cortex. J. Physiol. 160, 106–154 (1962).
44. Felleman, D. J. & Essen, D. C. V. Distributed hierarchical processing in the
primate cerebral cortex. Cereb. Cortex 1, 1–47 (1991).
45. Cadieu, C. F. et al. Deep neural networks rival the representation of primate
it cortex for core visual object recognition. PLoS Comp. Biol. 10, e1003963
(2014).
46. Fukushima, K. & Miyake, S. Neocognitron: a new algorithm for pattern
recognition tolerant of deformations and shifts in position. Pattern Recognition
15, 455–469 (1982).
47. Waibel, A., Hanazawa, T., Hinton, G. E., Shikano, K. & Lang, K. Phoneme
recognition using time-delay neural networks. IEEE Trans. Acoustics Speech
Signal Process. 37, 328–339 (1989).
48. Bottou, L., Fogelman-Soulié, F., Blanchet, P. & Lienard, J. Experiments with time
delay networks and dynamic time warping for speaker independent isolated
digit recognition. In Proc. EuroSpeech 89 537–540 (1989).
49. Simard, D., Steinkraus, P. Y. & Platt, J. C. Best practices for convolutional neural
networks. In Proc. Document Analysis and Recognition 958–963 (2003).
50. Vaillant, R., Monrocq, C. & LeCun, Y. Original approach for the localisation of
objects in images. In Proc. Vision, Image, and Signal Processing 141, 245–250
(1994).
51. Nowlan, S. & Platt, J. in Neural Information Processing Systems 901–908 (1995).
52. Lawrence, S., Giles, C. L., Tsoi, A. C. & Back, A. D. Face recognition: a
convolutional neural-network approach. IEEE Trans. Neural Networks 8, 98–113
(1997).
53. Ciresan, D., Meier, U. Masci, J. & Schmidhuber, J. Multi-column deep neural
network for traffic sign classification. Neural Networks 32, 333–338 (2012).
54. Ning, F. et al. Toward automatic phenotyping of developing embryos from
videos. IEEE Trans. Image Process. 14, 1360–1371 (2005).
55. Turaga, S. C. et al. Convolutional networks can learn to generate affinity graphs
for image segmentation. Neural Comput. 22, 511–538 (2010).
56. Garcia, C. & Delakis, M. Convolutional face finder: a neural architecture for
fast and robust face detection. IEEE Trans. Pattern Anal. Machine Intell. 26,
1408–1423 (2004).
57. Osadchy, M., LeCun, Y. & Miller, M. Synergistic face detection and pose
estimation with energy-based models. J. Mach. Learn. Res. 8, 1197–1215
(2007).
58. Tompson, J., Goroshin, R. R., Jain, A., LeCun, Y. Y. & Bregler, C. C. Efficient object
localization using convolutional networks. In Proc. Conference on Computer
Vision and Pattern Recognition http://arxiv.org/abs/1411.4280 (2014).
59. Taigman, Y., Yang, M., Ranzato, M. & Wolf, L. Deepface: closing the gap to
human-level performance in face verification. In Proc. Conference on Computer
Vision and Pattern Recognition 1701–1708 (2014).
60. Hadsell, R. et al. Learning long-range vision for autonomous off-road driving.
J. Field Robot. 26, 120–144 (2009).
61. Farabet, C., Couprie, C., Najman, L. & LeCun, Y. Scene parsing with multiscale
feature learning, purity trees, and optimal covers. In Proc. International
Conference on Machine Learning http://arxiv.org/abs/1202.2160 (2012).
62. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. & Salakhutdinov, R.
Dropout: a simple way to prevent neural networks from overfitting. J. Machine
Learning Res. 15, 1929–1958 (2014).
63. Sermanet, P. et al. Overfeat: integrated recognition, localization and detection
using convolutional networks. In Proc. International Conference on Learning
Representations http://arxiv.org/abs/1312.6229 (2014).
64. Girshick, R., Donahue, J., Darrell, T. & Malik, J. Rich feature hierarchies for
accurate object detection and semantic segmentation. In Proc. Conference on
Computer Vision and Pattern Recognition 580–587 (2014).
65. Simonyan, K. & Zisserman, A. Very deep convolutional networks for large-scale
image recognition. In Proc. International Conference on Learning Representations
http://arxiv.org/abs/1409.1556 (2014).
66. Boser, B., Sackinger, E., Bromley, J., LeCun, Y. & Jackel, L. An analog neural
network processor with programmable topology. J. Solid State Circuits 26,
2017–2025 (1991).
67. Farabet, C. et al. Large-scale FPGA-based convolutional networks. In Scaling
up Machine Learning: Parallel and Distributed Approaches (eds Bekkerman, R.,
Bilenko, M. & Langford, J.) 399–419 (Cambridge Univ. Press, 2011).
68. Bengio, Y. Learning Deep Architectures for AI (Now, 2009).
69. Montufar, G. & Morton, J. When does a mixture of products contain a product of
mixtures? J. Discrete Math. 29, 321–347 (2014).
70. Montufar, G. F., Pascanu, R., Cho, K. & Bengio, Y. On the number of linear regions
of deep neural networks. In Proc. Advances in Neural Information Processing
Systems 27 2924–2932 (2014).
71. Bengio, Y., Ducharme, R. & Vincent, P. A neural probabilistic language model. In
Proc. Advances in Neural Information Processing Systems 13 932–938 (2001).
This paper introduced neural language models, which learn to convert a word
symbol into a word vector or word embedding composed of learned semantic
features in order to predict the next word in a sequence.
72. Cho, K. et al. Learning phrase representations using RNN encoder-decoder

for statistical machine translation. In Proc. Conference on Empirical Methods in
Natural Language Processing 1724–1734 (2014).
73. Schwenk, H. Continuous space language models. Computer Speech Lang. 21,
492–518 (2007).
74. Socher, R., Lin, C. C-Y., Manning, C. & Ng, A. Y. Parsing natural scenes and
natural language with recursive neural networks. In Proc. International
Conference on Machine Learning 129–136 (2011).
75. Mikolov, T., Sutskever, I., Chen, K., Corrado, G. & Dean, J. Distributed
representations of words and phrases and their compositionality. In Proc.
Advances in Neural Information Processing Systems 26 3111–3119 (2013).
76. Bahdanau, D., Cho, K. & Bengio, Y. Neural machine translation by jointly
learning to align and translate. In Proc. International Conference on Learning
Representations http://arxiv.org/abs/1409.0473 (2015).
77. Hochreiter, S. Untersuchungen zu dynamischen neuronalen Netzen [in
German] Diploma thesis, T.U. Münich (1991).
78. Bengio, Y., Simard, P. & Frasconi, P. Learning long-term dependencies with
gradient descent is difficult. IEEE Trans. Neural Networks 5, 157–166 (1994).
79. Hochreiter, S. & Schmidhuber, J. Long short-term memory. Neural Comput. 9,
1735–1780 (1997).
This paper introduced LSTM recurrent networks, which have become a crucial
ingredient in recent advances with recurrent networks because they are good
at learning long-range dependencies.
80. ElHihi, S. & Bengio, Y. Hierarchical recurrent neural networks for long-term
dependencies. In Proc. Advances in Neural Information Processing Systems 8
http://papers.nips.cc/paper/1102-hierarchical-recurrent-neural-networks-forlong-term-dependencies (1995).
81. Sutskever, I. Training Recurrent Neural Networks. PhD thesis, Univ. Toronto
(2012).
82. Pascanu, R., Mikolov, T. & Bengio, Y. On the difficulty of training recurrent neural
networks. In Proc. 30th International Conference on Machine Learning 1310–
1318 (2013).
83. Sutskever, I., Martens, J. & Hinton, G. E. Generating text with recurrent neural
networks. In Proc. 28th International Conference on Machine Learning 1017–
1024 (2011).
84. Lakoff, G. & Johnson, M. Metaphors We Live By (Univ. Chicago Press, 2008).
85. Rogers, T. T. & McClelland, J. L. Semantic Cognition: A Parallel Distributed
Processing Approach (MIT Press, 2004).
86. Xu, K. et al. Show, attend and tell: Neural image caption generation with visual
attention. In Proc. International Conference on Learning Representations http://
arxiv.org/abs/1502.03044 (2015).
87. Graves, A., Mohamed, A.-R. & Hinton, G. Speech recognition with deep recurrent
neural networks. In Proc. International Conference on Acoustics, Speech and
Signal Processing 6645–6649 (2013).
88. Graves, A., Wayne, G. & Danihelka, I. Neural Turing machines. http://arxiv.org/
abs/1410.5401 (2014).
89. Weston, J. Chopra, S. & Bordes, A. Memory networks. http://arxiv.org/
abs/1410.3916 (2014).
90. Weston, J., Bordes, A., Chopra, S. & Mikolov, T. Towards AI-complete question
answering: a set of prerequisite toy tasks. http://arxiv.org/abs/1502.05698
(2015).
91. Hinton, G. E., Dayan, P., Frey, B. J. & Neal, R. M. The wake-sleep algorithm for
unsupervised neural networks. Science 268, 1558–1161 (1995).
92. Salakhutdinov, R. & Hinton, G. Deep Boltzmann machines. In Proc. International
Conference on Artificial Intelligence and Statistics 448–455 (2009).
93. Vincent, P., Larochelle, H., Bengio, Y. & Manzagol, P.-A. Extracting and composing
robust features with denoising autoencoders. In Proc. 25th International
Conference on Machine Learning 1096–1103 (2008).
94. Kavukcuoglu, K. et al. Learning convolutional feature hierarchies for visual
recognition. In Proc. Advances in Neural Information Processing Systems 23
1090–1098 (2010).
95. Gregor, K. & LeCun, Y. Learning fast approximations of sparse coding. In Proc.
International Conference on Machine Learning 399–406 (2010).
96. Ranzato, M., Mnih, V., Susskind, J. M. & Hinton, G. E. Modeling natural images
using gated MRFs. IEEE Trans. Pattern Anal. Machine Intell. 35, 2206–2222
(2013).
97. Bengio, Y., Thibodeau-Laufer, E., Alain, G. & Yosinski, J. Deep generative
stochastic networks trainable by backprop. In Proc. 31st International
Conference on Machine Learning 226–234 (2014).
98. Kingma, D., Rezende, D., Mohamed, S. & Welling, M. Semi-supervised learning
with deep generative models. In Proc. Advances in Neural Information Processing
Systems 27 3581–3589 (2014).
99. Ba, J., Mnih, V. & Kavukcuoglu, K. Multiple object recognition with visual
attention. In Proc. International Conference on Learning Representations http://
arxiv.org/abs/1412.7755 (2014).
100.Mnih, V. et al. Human-level control through deep reinforcement learning. Nature
518, 529–533 (2015).
101.Bottou, L. From machine learning to machine reasoning. Mach. Learn. 94,
133–149 (2014).
102.Vinyals, O., Toshev, A., Bengio, S. & Erhan, D. Show and tell: a neural image
caption generator. In Proc. International Conference on Machine Learning http://
arxiv.org/abs/1502.03044 (2014).
103.van der Maaten, L. & Hinton, G. E. Visualizing data using t-SNE. J. Mach. Learn.
Research 9, 2579–2605 (2008).

感谢加拿大自然科学和工程研究理事会、加拿大高级研究所(CIFAR)、国家科学基金会和海军研究办公室的支持。Y.L.和Y.B.是CIFAR的研究员。

作者信息、再版和权限信息可在www.Nature.com/Reprint查阅。作者声明没有竞争的经济利益。欢迎读者在go.Nature.com/7cjbaa网站上对本篇论文的网络版发表评论。信函应寄给Y.L.([email protected])。

深度学习1 翻译 Deep learning Yann LeCun1,2, Yoshua Bengio3 & Geoffrey Hinton4,5

猜你喜欢