ZF Net 论文笔记

标题:Visualizing and Understanding Convolutional Networks

作者:Matthew D. Zeiler;Rob Fergus

摘要:最近,大型卷积神经网络在ImageNet上表现出优秀的性能。本文试图解决两个问题,这种模型为什么表现得如此优秀,以及如何改进模型。我们引入了一种新颖的可视化技术,深入了解中间特征层的功能和分类器的操作细节。可视化技术最终找到了一种比AlexNet性能更好的模型结构,还发现了模型的不同层次做出的性能贡献。

一、介绍

        自90年代的LeNet提出以来,卷积神经网络在手写数字和面部识别上表现出优异的性能。尽管有了这么多令人激动的发展成果,我们还不能洞悉其内部操作以及其出色性能的原因。因此我们提出了一种可视化技术,即多层解卷积网络,将特征激活投影回输入像素空间。我们也通过遮挡输入图像的部分区域来做敏感性分析,以探查哪部分对输出结果影响最大。我们用以上手段,开始着手研究AlexNet的结构并探索更多模型,最终发现了一些比之前在ImageNet上表现更好的模型,并且探索这个模型的泛化能力。

二、方法

        1、我们的实验使用标准的卷积神经网络AlexNet和LeNet。

        2、使用Deconvnet解卷积网络进行可视化操作。我们提出了一种将这些激活映射回输入时的像素空间的新方法,显示了哪种输入模式根本上造成了特征图中的某个激活。

        3、为了验证一个卷积网络,每个图层都使用一个解卷积器,为映射到像素空间提供连续的路径,如图所示。过程分三部分unpooling-rectification-filtering


        4、unpooling。近似的逆池化。在解卷积网中,逆池化操作使用这些转换来放置上述最大值的位置,保存激活的位置,其余位置都置 

        5、rectification。通过Relu重建特征图

        6、filtering。解卷积网中利用卷积网中的相同的滤波器的转置应用到纠正过的特征图中。注意反卷积应该解读为转置卷积,它并没有把卷积过程逆向,只是再做一次转置卷积维持W与X的关系。

三、训练细节

        1、用的AlexNet差不多的模型,主要区别是AlexNet用了两块GPU训练把3、4、5层分了两块,而我们的结构更紧密。还有一些重要区别在第四节做可视化之后讲解。

        2、训练用ImageNet2012的数据;MBGD梯度下降;0.01学习率;Dropout正则化

        3、我们通过可视化发现AlexNet第一层卷积后有些特征占了绝对优势,于是我们对均值方根明显偏离半径的filter进行重新归一化,从第二层可视化后的效果来看确实要优于原来的模型,如图所示


四、可视化卷积网络

        1、特征可视化。如图

  



        2、训练期间的特征演变。如图。


        3、特征不变性。如图。平移和缩放没什么影响,旋转对输出有较大影响。


        4、结构选择。当我们能够通过可视化洞悉模型内部操作后,我们就可以立马选出一个好的模型结构。我们改了AlexNet模型第一层的filter结构和步长,以及初始化值。效果更好了。

        5、遮挡灵敏性。遮挡实验清楚地表明模型正在对场景中的物体进行定位,因为当物体被遮挡时,正确的类别的概率显着下降

        6、相关性分析。卷积神经网络在分类时确实对不同图片的相同部分标记有较强相关性

五、实验

        1、ImageNet 2012。获得14:8%的测试误差,这是该数据集中最好的公布性能。另外探讨了一下增加卷积层可以让模型更优化,但是增加全连接层可能发生过拟合。还发现去掉AlexNet的6-7全连接层,错误率也就上升了一点

        2、特征泛化能力。把模型运用到其他三个数据集(caltech101,caltech256,pascal 2012)上,表现也很不错,说明模型有较好泛化能力

        3、特征分析。较高层通常产生更多的区分性特征

六、结论

        1、我们首先用可视化技术了解卷积神经网络内部运作机制,并能够针对性的找出且有解决现模型存在的问题。此外,我们还做了遮挡实验,验证模型对图像的局部特征具有高敏感性。

        2、最后我们演示了ImageNet的模型在其他数据集上也具有良好效果。


猜你喜欢

转载自blog.csdn.net/liusiyang_641/article/details/79721816
ZF
今日推荐