2012－ImageNet数据集冠军AlexNet论文英文原文及AlexNet分析

最近几个月来一直在研究卷积神经网络，主要是应用开源框架TensorFlow对网络进行训练，训练时是根据自己对卷积神经网络的理解，自己构建的网络结构，一直没有想过应用那些在ImageNet数据竞赛中，获得冠军的网络，这几天突然想自己写下AlexNet网络的代码，在网上找到了Alex Krizhevsky的论文原文，在这里分享一下，网盘链接：http://pan.baidu.com/s/1boSo0wB 密码：pd6u

关于AlexNet网上有很多，在这里也说一下自己对AlexNet的见解：

1. 不得不承认，AlexNet掀起了深度学习热。

在2012年之前众多学者都对深度学习抱以迟疑的态度，感觉就只是理论上说的很好，但对其效果不敢恭维，Hinton为了回应网上的质疑，让其学生Alex应用卷积神经网络参加ImageNet数据大赛，结果大获全胜，从此开创了深度神经网络空前的高潮。

2. AlexNet并不是第一个应用最成功的卷积神经网络。

在AlexNet之前还有LeCun大牛在1989年提出的LeNet-5，其在当时也相当成功，被用在当时手写支票数字的识别上。时隔20多年，经过Hinton等人的不懈努力，才成就了当前深度学习算法的巨大成功。

3. 关于AlexNet

AlexNet较20多年前的LeNet-5有众多新思想，包括数据增强、局部归一化、激活函数采用ReLU、DropOut方法等。当时在斯坦福大学CS231n课程上，李飞飞的得意门生讲到数据增强很简单，也很好用，所以要常用，感兴趣的可以在查看课程(链接：http://study.163.com/course/courseLearn.htm?courseId=1003223001#/learn/video?lessonId=1004255298&courseId=1003223001)。其它比如网络深度增加、训练算法采用逐层预训练算法等也就不多说了。

AlexNet共有八层网络，其结构如下：

卷积层1：输入224*224*3 卷积核11*11*3*96 步长为4 然后是ReLU 、局部归一化、3*3步长为2的最大值池化

卷积层2：输入28*28*96 卷积核5*5*96*256 然后是ReLU、局部归一化、3*3步长为2的最大值池化

卷积层3：输入14*14*256 卷积核3*3*256*384 然后是ReLU

卷积层4：输入14*14*384 卷积核3*3*384*384 然后是ReLU

卷积层5：输入14*14*384 卷积核3*3*384*256 然后是ReLU、3*3步长为2的最大值池化

全连接层1：输入7*7*256 输出4096 然后是ReLU、DropOut

全连接层2：输入4096 输出4096 然后是ReLU、DropOut

全连接层3：输入4096 输出1000

注：上述各个层图片的大小是我编程计算出来的，可能和笔算的不太一样，在程序输入里图片大小采用的是224*224*3，TensorFlow的padding方式均为'SAME'。

另外，资料都说，卷积层1输入应为227*227*3，不然算不对；在最大值池化上，有的资料采用的是2*2的最大值池化。

2012－ImageNet数据集冠军AlexNet论文英文原文及AlexNet分析

猜你喜欢