按照Andrew Ng的推荐顺序,首先精读了这篇论文,以下记录一些文章中的关键点。
卷积层: 5层
全连接层: 3层
参数个数: 60M
神经元个数: 650k
分类数目: 1000类
网络尺寸:
输入层:227x227x3(论文中说明的是224x224x3应该不太对)--> c1卷积层:96个11x11x3,padding=0,stride=4,p1池化层:3x3,stride=2
C1输出:27x27x(48x2)--> c2卷积层:256个5x5x48,padding=2,stride=1,p2池化层:3x3,stride=2
C2输出:13x13x(128x2)-->c3卷积层:384个3x3x256,padding=1,stride=1
C3输出:13x13x(192x2)-->c4卷积层:384个3x3x192,padding=1,stride=1
C4输出:13x13x(192x2)-->c5卷积层:256个3x3x192,padding=1,stride=1,p5池化层:3x3,stride=2
C5输出:6x6x(128x2)
参数数量:
C1: 96x11x11x3
C2: 256x5x5x48
C3: 384x3x3x256
C4: 384x3x3x192
C5: 256x3x3x192
R1: 4096x6x6x256
R2: 4096x4096
R3: 4096x1000
激活函数:
ReLU f(x)=max(0, x)
正规化:
k=2, n=5, alpha=10^-4, beta=0.75
更新规则:
batch size=128
momentun=0.9
weight decay=0.0005
初始化:
weights:均值为0,偏差为0.01的高斯分布
biases:第2,4,5卷积层和全连接隐藏层为1,其他层为0
learning rate:0.01