Deep learning 论文笔记

文章申明：小白初作，随意拍，一定改正！

论文原文：http://pages.cs.wisc.edu/~dyer/cs540/handouts/deep-learning-nature2015.pdf

title：《Deep learning》

author：Yann LeCun 1,2 , Yoshua Bengio 3 & Geoffrey Hinton 4,5

这篇期刊paper更像是一个综述，主要流程：

1，总述：先叙述了机器学习的广泛应用，传统的机器学习局限与输入需要对原始数据加工，而加工是一个手艺活，需要很多的经验和算法知识，然后引入Representation learning ：Representation learning is a set of methods that allows a machine to be fed with raw data and to automatically discover the representations needed for detection or classification. 【原文】 大概意思是说表示学习（翻译是参考周志华CNCC2016的PPT）允许机器直接投入原始数据，可以自动的发现后续检测或者分类中需要的数据特征。我觉得它的功能就是预处理，将原始数据投入Representation learning，然后接网络的输入端，把原始输入搞得更抽象一些，使有用的信息更敏感，不相关信息压缩掉。接下来以image为例，讲述了learning的一般过程，DL的key是每一层的feature靠自学，而不是有人工的标注， The key aspect of deep learning is that these layers of features are not designed by human engineers: they are learned from data using a general-purpose learning procedure【原文】然后就是DL在各种domain的出色表现，并且beat 了各种record。

2，叙述监督学习（supervised learning）：我对监督学习的理解就是，给各种猫的图片（train dataset），提示网络这是猫（label），多次重复后再给猫的图片，网络能自动反应，哦！这是猫。那么到底是怎么train的呢？我们需要定义一个objective function，它的作用是计算预测值和label之间的distance，网络learning的任务就是缩小这个objective function的值，也就是让预测值不断接近真值，这个objective function是关于weight的函数，下面就粗略的提到一种优化的方法，叫随机梯度下降stochastic gradient descent (SGD)，就是每次在所有的样本中随机选一个样本，计算objective function关于weight的偏导（梯度），让weight往梯度的负方向（梯度的负方向就是objective function即误差减小的方向）变化，然后多次重复，最后发现objective function的值不变了或者变得很小了，就停止迭代，此时的参数weight，就是我们的网络学习到的。

3，叙述BP算法（Backpropagation to train multilayer architectures ）：核心思想就是 chain rule for derivatives（链式求导），然后很奇怪的是作者就没有继续讲BP了，真的只是提了一下，然后就叨叨了一下我们这个神经网络和反向传播算法在机器学习里被遗忘，后来在2006年有个团队提出了 unsupervised learning procedures，又revive了， unsupervised learning procedure顾名思义就是无监督嘛，could create layers of

feature detectors without requiring labelled data.【原文】能够用没有标签的数据就创造网络，它的厉害之处就是做一个pre-training ，作用是能够把我们的参数weight初始化到一个合适的值，并且呢对一些小的数据集，unsupervised pre-training能够避免过拟合。

4，讲卷积神经网络（Convolutional neural networks）：ConvNets背后的四个关键思想： 局部连接（local connections）我的理解是每个神经元其实没有必要对全局图像进行感知，只需要对局部进行感知，然后在更高层将局部的信息综合起来就得到了全局的信息；权值共享（shared weights）,我的理解是权值共享（也就是卷积操作）减少了权值数量，降低了网络复杂度，可以看成是特征提取的方式。其中隐含的原理是：图像中的一部分的统计特性与其他部分是一样的。意味着我们在这一部分学习的特征也能用在另一部分上，所以对于这个图像上的所有位置，我们都能使用同样的学习特征；池化（ pooling），在通过卷积获得了特征 (features) 之后，下一步我们希望利用这些特征去做分类。人们可以用所有提取得到的特征去训练分类器，例如 softmax 分类器，但这样做面临计算量的挑战，并且容易出现过拟合 (over-fitting)，因此，为了描述大的图像，可以对不同位置的特征进行聚合统计，如计算平均值或者是最大值，即mean-pooling和max-pooling； 多层（the use of many layers）。接下来就讲到，典型 ConvNet的结构： convolution layers, non-linearity and pooling ，分别是卷积层，非线性操作，池化层，然后将这个结构多次堆叠就构成了ConvNet的隐藏层，然后叨叨了ConvNets中卷积层和池化层的设计灵感。

5，深卷积网络对图像进行理解（Image understanding with deep convolutional networks）：感觉这段没讲什么技术上的类容，主要就是各个互联网巨头用DNN做出了贼厉害的成绩。

6，Distributed representations and language processing

7，Recurrent neural networks 六，七部分都是讲的DL在文本和语言处理领域的发展，没看

8，深度学习的将来（The future of deep learning ）：主要对Unsupervised learning 的发展有个很棒的展望

Deep learning 论文笔记

猜你喜欢