03《卷积神经网络的研究进展综述》学习总结

一、本篇介绍

篇名:卷积神经网络的研究进展综述
作者:杨斌,钟金英
作者单位:南华大学 电气工程学院
发表在:南华大学学报( 自然科学版),2016年9日

二、本文主要内容(知识点)

1、历史和发展

拉开序幕:20世纪40年代末提出M-P神经元模型。
广泛应用:1986年,Rumelhart等学者提出反向传播网络学习算法(back propagation,BP)
走到瓶颈:继BP神经网络之后,一系列分类器如支持向量机、Boosting和最大熵等方法相继提出。
新思路:CNN提出,CNN受启发于猫的视觉系统结构
2006年,机器学习领域的泰斗Hinton指出多层的神经网络结构能够学习到更深刻更本质的特征,并通过“逐层初始化”的训练办法克服了传统神经网络训练瓶颈问题,引领了DL的发展方向。
2011年以来,微软研究院和谷歌的语音识别人员采用深度神经网络(deep neural network,DNN)技术,使语音识别有了突破性进展,识别误差可降低20%~30%。
2013年百度宣布成立百度研究院,而其第一个研究重点就是DL。
2013年10月,Facebook试图通过启用DL这一新的人工智能技术来帮助理解它的用户和相关数据。
2015年国际机器学习大会上来自工业界和学术界的各位专家对DL展开激烈讨论,指出DL在人类擅长的领域已经取得了令人振奋的成功,未来的探索方向是人类并不擅长的任务、数据集。
2015年国际计算机视觉与模式识别会议上关于DL和CNN的研究成果较往年有大幅的提升。
2015年9月,微软亚洲研究院的“深层残差网络”(deep residual networks)在ILSVRC中获得图像分类、定位以及检测全部项目的冠军,如分类方面将错误率降低至4.94%,比人眼辨识(错误率5。1%)更精确。

2、优点:减少参数

若以1000×1000的输入图像为例,卷积层的节点数为106,则全连接方式a需要1012个权值。假设图1b采用10×10的局部感受野,则其权值减少为108个。若系统有100个滤波器,在局部感受野的基础上,CNN采用权值共享c可进一步将权值个数减少到104。由此可见,CNN的权值共享和局部感受野可以大幅度的减少网络参数。

3、原理

经典的CNN包括卷积层(C)、降采样层(S)和全连接层(F)三部分。卷积层的卷积核本质就是特征提取器,配合深度网络模型可以自动提取输入信号的深层信息。降采样层即池化层,实现特征图的采样处理,在减少数据量的同时保留有用的信息,也使CNN具有抗畸变的能力。全连接层(如softmax层)一般位于网络尾端,对前面逐层变换和映射提取的特征进行回归分类等处理,也可作输出层,把训练得到的特征图汇总成特征向量,为输入图像的另一种信息表示。

4、改进

4.1、对卷积层的改进(5种)

Krizhevsky等把CNN的卷积层数加至5层,构成了深度卷积神经网络(deep convolutional neural network,DCNN)
Szegedy等组成的GoogLeNet小组构建了22层深度网络,该网络比2012ILSVRC获胜者的网络参数少了12倍,却能更精确的分类和检测,
王冠皓提出了多级金字塔卷积神经网络(multi-level pyramid CNN),CNN每层先使用稀疏自编码器预训练,再使用金字塔卷积神经网络对整个网络训练,将低层的滤波权值共享到高层,保证训练时的卷积滤波只在小尺寸图像上进行,大尺度图像只进行一次向前传播,加快训练速度。
Zhang在ImageNet上训练具有7层的快速非线性卷积神经网络,对每层加速以达到对整个网络加速的目的,速度可达到与“AlexNet”一致的同时,分类精度也提高了4.7%。
Springenberg等构造了stride卷积层,保证卷积特征不变性,省去最大池化层,该网络结构相对简单,但其识别效果比常见的卷积层和池化层组合模型更好。

4.2对降采样层的改进(3种)

He等在DCNN的卷积层尾端引入空间金字塔降采样层去除固定尺度的约束,降采样获得与全连接层相匹配的特征。
Rippel等提出了频谱池化的方法,将CNN进行傅里叶变换来把耗时的卷积操作替换为乘积操作可加速网络训练,通过截取信号在频域特征表示来降低维度,不仅可以保留更多的信息,还比其它的池化方法更灵活,提高了利用傅里叶变换计算卷积效率。
Zeiler等提出了反卷积神经网络(deconvolutional networks,DN),采用非监督方法对自然图像自顶向下进行卷积分解,再组合滤波器组学习到的卷积特征,获得一个特征丰富具有鲁棒性的图像表征。

4.3对全连接层的改进

Krizhevsky在CNN两个全连接层采用了“Dropout”策略,克服过拟合问题,每次迭代以0.5的概率使一些随机分布的节点不工作但权值保留,之后又可能参与训练。该策略可以防止某些特征仅在其它特殊特征出现下才产生作用的情况,从而有效地避免了网络中特征之间的相互依赖性。
孙艳丰提出了基于改进Fisher准则的深度CNN识别算法(fisher-based convolution neural network,FCNN),反向传播采用Fisher的约束准则,加入判别准则的能量函数,在迭代求解权值的搜索空间受到判别条件约束影响,从全局搜索缩小到更有利于分类的局部空间,从而使权值更快地逼近便于分类的最优值。
Girshick等提出基于区域卷积神经网络(Regions with CNN features,RCNN),先找兴趣区域再进行检测和分割。
Ren等人进一步提出了faster R-CNN,构建一个耗时极少且精确度高的全卷积层区域提取方案网络(region proposal network,RPN),从提区域方案到目标检测总共耗时198ms,在VOC2007上mAP也从FRCN的70%提高到73.2%。

5、应用

5.1、语音识别

隐形马尔科夫模型混合高斯模型GMM-HMM
然后转向DNN-HMM,
Ossama等在DNNHMM模型后面加上局部滤波层和最大采样层,获得更高性能的多个说话者语音识别系统。

5.2图像识别(重点,我的关注点)

Sun等设计三层CNN用于估计脸部关键点的位置,利用了脸部的纹理环境信息来锁定关键点,训练网络时考虑了关键点的几何位置分布,从而克服了传统人脸识别受遮挡、姿势变换和光照等影响大的缺点。
闫鹏使用级联CNN实现车牌检测,通过引入级联结构,同时提高检测准确率和检测效率。
Zhang等用基于贝叶斯优化的搜索策略,目标检测框依次通过候选区域,把具有明显定位不准确的目标训练CNN,处理定位问题。
Dong等提出的超分辨率卷积神经网络(super-resolutionCNN,SRCNN),在低分辨率图像和高分辨图像之间学习一个端对端映射,网络结构简单却能提供优越的处理结果。

5.3视频识别

Ji等将3D的视频看成空域上的2D信号,学习时空域相关性来获得帧之间的关联特征,从而获得多个相邻帧间的运动信息,实现行为识别。
Karpathy等用来自487类的100万段YouTube视频构建了Sports-1M数据集,并训练了基于CNN的大规模视频分类的经验评估模型,其分类准确率可达63。3%,比基于人工特征55。3%的识别率有明显提高。
Liu等基于滤波器响应提出了对运动敏感的时空域深度卷积神经网络,可以很好的检测到视频的运动特征。

6、展望

6.1、多输入卷积神经网络
6.2、提高卷积神经网络的泛化能力
6.3、神经网络的结构先验约束
6.4、高层输出对低层输出的反馈
6.5、卷积神经网络应用的扩展

三、具体创新

本文属于综述,没有具体创新点。

四、心得感想

前面已经看过2篇关于CNN的综述,这是第三篇,综述就看到这里吧,本篇的重点在于第三章,CNN模型的改进,之后研究一下各位大牛对CNN的一些改进,想必可以更加深刻地理解CNN的发展。
fighting!!!

五、摘要中的专业词汇的学习

representational abilities 表征能力
insufficiency of expression 特征表达能力的不足
dimensionality curse 维数灾难
imitates the biological vision system 仿生物视觉系统
local receptive field 局部感受野
down sampling 降采样
feature extraction 特征提取
intelligent recognition 智能识别

另:一些说明
1、本博客仅用于学习交流,欢迎大家瞧瞧看看,为了方便大家学习,相关论文请去知网等地方自行下载。
2、如果原作者认为侵权,请及时联系我,我的qq是244509154,邮箱是[email protected],我会及时删除侵权文章。
3、我的文章大家如果觉得对您有帮助或者您喜欢,请您在转载的时候请注明来源,不管是我的还是其他原作者,我希望这些有用的文章的作者能被大家记住。
4、最后希望大家多多的交流,提高自己,从而对社会和自己创造更大的价值。

猜你喜欢

转载自blog.csdn.net/u014772246/article/details/81149455