DeCAF: A deep convolutional activation feature for generic visual recognition

很多视觉识别的挑战性任务都只有相对小的数据集。作者探究能否将一个由ImageNet (一个很大的数据集)训练来的卷积神经网络DeCAF泛化到其他可用数据较少的任务。

该模型可以被认为是一个基于有监督预训练（pre-training）阶段的迁移学习的深度架构，或者可以简单认为是，在一系列预先定义好的对象识别任务学习到卷积网络权重参数，然后据此定义的一个新的视觉特征DeCAF。

在训练一个深度卷积网络后（使用 Krizhevskey et al.’s competition winning 2012 architecture），从训练好的模型中抽取特征然后作为一般视觉任务的输入。在这些任务上获得成功说明卷积网络学习到普遍有用的图像特征。

█ 用DeCAFn作为CNN第n层隐藏层的激励。DeCAF7是传播到最后一个全连接层产生类别预测之前的最后一个隐藏层，使用CNN特征作为输入，训练logistic Regression或SVM进行分类。

█ 在Caltech-101 数据集上， DeCAF6 + SVM 效果好于以前最好的方法（一种组合5个传统手工设计的图像特征的方法）。

█ Office数据集包含来自Amazon的商品图片和在办公环境下使用网络摄像头（webcam）和单反相机（DSLRs）的到的图片。使用DeCAF特征不但能够较好地进行类别聚类，而且能够聚集不同区域的同一类物体，对于分辨率改变（webcam VS. DSLRs）具有良好鲁棒性。DeCAF + SVM的方法大大超越了基础的SURF特征。

█ 对于子类识别（如使用Caltech-UCSD数据集识别不同类型的鸟），DeCAF6 加上 logistic Regression 又超越了现有方法（就我们所知，这是目前文献里记录的最好的精度）

█ 最后，对于场景识别任务，在SUN-397大规模场景识别数据集上DeCAF + logistic Regression也优于了现有的方法。

训练于大规模图像数据集的卷积神经网络强有力地表明学习有足够代表性和泛化能力的特征能够以当前最先进的水平用于广泛的图像任务。

视觉识别系统要具有在含有稀疏且有标签数据的任务上达到高的分类精确度，这已经被证明是计算机视觉研究领域一个很困难的目标，但是我们的多任务深度学习框架（DeCAF）和彻底的开源实现是这个方向的重要一步。

PS：DeCAF即为现在的Caffe。

转载：https://yq.aliyun.com/articles/71891

深度学习之---为什么pre-trained会起作用

DeCAF: A deep convolutional activation feature for generic visual recognition

猜你喜欢