Lenet（1986）

主要用于识别10个手写邮政编码数字，5*5卷积核，stride=1，最大池化。

Alexnet（2012）

卷积部分都是画成上下两块，意思是说吧这一层计算出来的feature map分开，但是前一层用到的数据要看连接的虚线。

局部响应归一化LRN：利用前后几层（对应位置的点）对中间这一层做一下平滑约束，增加泛化能力，公式为：

GooleNet（2014）

inception的结构，一分四，然后做一些不同大小的卷积，之后再堆叠feature map。

VGG（2014）

由5层卷积层、3层全连接层、softmax输出层构成。用了3*3的卷积核（c模型用了1*1的卷积核，但一般都只用d、e模型，1*1不必管它），步长stride=1，padding=1，max池化，pooling窗口为2*2，pooling步长为2

VGG系列网络使用的是3x3的小卷积核，这是有中心和上下左右的最小单元（中心+八邻域）；两个3x3的卷积层连在一起可视为5x5的filter，三个连在一起可视为一个7x7的。和大卷积核相比：（1）可以减少参数（2）进行了更多的非线性映射，增加网络的拟合、表达能力。

VGG缺陷：参数量大，有140M

需要注意到LRN只在A-LRN出现，且A-LRN结果没有A好，说明LRN作用不大。A效果不如更深的BCDE；B与C比较：增加1x1filter，增加了额外的非线性提升效果；与D比较：3x3 的filter（结构D）比1x1（结构C）的效果好。

全连层的作用：从特征空间映射到样本标记空间。

可以顺便看一下卷积层代替全连层的说明。

假设最后一个卷积层的输出为7×7×512，连接此卷积层的全连接层为1×1×4096。连接层实际就是卷积核大小为上层特征大小的卷积运算，卷积后的结果为一个节点，就对应全连接层的一个点。如果将这个全连接层转化为卷积层：
1.共有4096组滤波器
2.每组滤波器含有512个卷积核
3.每个卷积核的大小为7×7
4.则输出为1×1×4096
------------------------------------------
若后面再连接一个1×1×4096全连接层。相当于就是将特征组合起来进行4096个分类分数的计算，得分最高的就是划到的正确的类别。则其对应的转换后的卷积层的参数为：
1.共有4096组滤波器
2.每组滤波器含有4096个卷积核
3.每个卷积核的大小为1×1
4.输出为1X1X4096