Computer Vision阅读文章总结纪要

Computer Vision阅读文章总结

@(Computer Vision)

文章列表：

Improving neural networks by preventing co-adaption of feature detectors – Dropout
ImageNet Classification with Deep Convolutional Neural Networks –AlexNet
Regularization of Neural Networks using DropConnect – Dropout的泛化
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift – BN
Maxout Networks
Network in Network – NIN
Going deeper with convolutions – GoogleLeNet
OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks – OverFeat

文章内容要点：

1. Improving neural networks by preventing co-adaption of feature detectors – Dropout

主要针对问题：大的前向神经网路在小的数据集上训练，测试数据集上表现很差，即过拟合问题。本文首次提出Dropout机制，随机删除50%的隐层结点的输出 – 删除的是通过激活函数后的结果。

没有Dropout的理论说明，只是通过实验说明在大数据集上可以有效降低过拟合问题。

直观的理解是通过dropout可以避免网络权重依赖于与其他神经元的合作，记住训练样本的特征，相互适应。

只适用于全连接层。

2. ImageNet Classification with Deep Convolutional Neural Networks –AlexNet

6000万参数，65万神经元，5个卷积层，部分卷积层后跟最大池化层，3个全连接层。

使用的新的技术点：
- 同时采用了ReLU激活函数加快收敛速度，解决梯度弥散问题
- 使用两颗GPU并行训练，加快训练速度
- 重叠的最大池化，避免了平均池化的模糊性，丰富了提取的特征
- 并利用LRN(局部响应归一化)提高模型的准确度：对局部神经元的活动创建竞争机制，对响应较大的值变得相对更大，抑制反馈较小的神经元，提升模型的泛化能力
- Dropout降低过拟合
- 通过数据增强技术扩大数据集

3. Regularization of Neural Networks using DropConnect

是Dropout的泛化方式，同样只适用于全连接层。

本篇文章提出的随机丢弃的是连接权重而不是神经元的输出。通过这样的方式，全连接变成动态
稀疏连接，结果显示在一系列数据集上效果超过了Dropout。数据集包括：MNIST, CIFAR-10, SVHN, NORB等。

4. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

神经网络的学习过程本质是学习数据的分布，当训练数据与测试数据的分布不同时，网络的泛化能力就大大降低。covariant shift的概念就是用来表达训练样本和测试样本的分布有差别。

网络的前面几层发生微小的变化，在后面会被放大。当某一层的输入数据分布发生变化时，这层网络就需要适应学习这个新的分布。如果训练数据分布一直在变化，网络的训练就很慢。

本文提出的算法就是解决在训练过程中中间数据分布发生改变的情况，输入样本已经人为归一化，所以只考虑隐层。

核心思路是：在每一层输入时，对数据加一个预处理操作。但是强行归一化带来的问题是改变了数据的分布，本文提出了在归一化数据之后进行scale and shift – 变换重构，还原到数据归一化之前的分布。

5. Maxout Networks

是一种新的激活函数。

普通本层神经元的输入值是由与上层相连的神经元的输出和权值的点积加上偏置值，通过激活函数得到。这是一次计算的量。

在Maxout网络结构中，是K次计算量，K是人工指定的。相当于说在神经元两层之间再加一层K个神经元，权重矩阵是三维，第三维是K维。计算神经元的输入时，计算K次，取最大的那个，不需要用激活函数，取最大值本身就是一种激活函数的功能。

6.Network in Network

网中网，提升在感受野内的特征分辨能力。

一般卷积神经网络是将卷积核与感受野内的像素值进行点积输出特征图，本质上是广义线性操作。本文认为这种方法的抽象能力偏低，不足以提取更丰富的特征，因此提出了一种新的非线性的方法来替代卷积核。这个方法就是：微型的MLP网络，将感受野内的像素作为输入，通过MLP输出值，感受野滑动方式与CNN相同。

去掉最后一层全连接层，代之以全局平均池化层Global Average Pooling。

7. Going deeper with convolutions – GoogleLeNet

突出特点是提升了在网络内对计算资源的利用效率。提升了网络的深度和层的宽度，但是保持了计算量在预算内。

一般认为为了提高准确率，使用更深的网络来提升特征表达能力，带来的问题是参数的爆炸式增长。参数过多，导致两个严重的问题：

更容易过拟合
需要更多的计算资源

解决方法是：让网络连接变为稀疏连接。

能够实现这个效果的基础是基于Hebbian原则：

如果两个神经元常常同时产生动作电位，同时激动，那么这两个神经元之间的连接就会加强，反之就是变弱。

依据这个原则，将相关度高的神经元聚集起来，就可以获得一个稀疏的表示。

8. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks

本文提出了一个整合的框架：用卷积网络同时做图像分类，定位和检测。

突出的贡献是：展示了如何用卷积同时解决计算机视觉上的三大问题：

分类
定位
检测

主要是把网络的1~5层看做特征提取层，对于不同的任务共享这个特征提取层，针对不同的任务，只需要改变网络的最后几层，迁移学习。网络结构与AlexNet基本相同，但是去除了LRN层，以及重叠池化。