卷积神经网络的详解

 前言:

卷积神经网络(Convolution  Neural Network,CNN)是通过模拟人脑视觉系统,采取卷积层和池化层依次交替的模型结构,卷积层使原始信号得到增强,提高信噪比池化层利用图像局部相关性原理,对图像进行邻域间采样,在减少数据量的同时提取有用信息,同时参数减少和权值共享使得系统训练时间长的问题得到改善。

目前主流的典型卷积神经网络(CNN),比如VGG, GoogleNet,ResNet都是由简单的CNN调整,组合而来。

一.卷积神经网络结构定义及原理

CNN是一种多层网络,它的每一层由多个二维平面构成,卷积神经网络结构如下图所示。

每一个二维平面由多个神经元构成。CNN的网络结构也可分为3部分:输入层,隐藏层与输出层。CNN的输入层是直接输入二维图像信息,这一点与传统的神经网络输入层需要输入一维向量有所不同。通常将输入层到隐藏层的映射称为一个特征映射,也就是通过卷积层得到特征提取层,经过pooling之后得到特征映射层。

隐藏层由三种网络构成——卷积层,池化层,全连接层。

卷积层:该层的每个神经元与上层对应的局部感受域相连,通过滤波器和非线性变换来提取局部感受域的特征。当每个局部特征被提取之后,不同的局部特征间的空间关系也就确定下来了。

池化层:可以对卷积层提取的特征进行降维,同时可以增加模型的抗畸变能力。

全连接层:连接层的神经元和传统的神经网络一样是全连接的,模型中一般至少有一层全连接层。

输出层:输出层位于全连接层之后,对从全连接层得到的特征进行分类输出

在keras中搭建全连接层时,将二维数据转换为一维数据,可通道如keras,layers模块中Flatten完成。语句如下

扫描二维码关注公众号,回复: 13124767 查看本文章

from keras.layers import Flatten

#搭建神经网络时,加入Flatten()层

model.add(Flatten())

#Flatten函数将返回一组拷贝数据,对于输入的二维数据,默认按行展开,输出一维数据。该函数可将卷积过程中输出的二维数据转换成一维数据输入全连接层

二.  卷积层

在这个卷积层,有两个关键操作:

  • 局部关联。每个神经元看做一个滤波器(filter)
  • 窗口(receptive field)滑动, filter对局部数据计算

先介绍卷积层遇到的几个名词:

  • 深度/depth(解释见下图)
  • 步长/stride (窗口一次滑动的长度)
  • 填充值/zero-padding,指的是边界填充0

卷积过程如下:(滑动窗口就是卷积池)


例如:卷积的计算(注意,下面蓝色矩阵周围有一圈灰色的框,那些就是上面所说到的填充值)

这里的蓝色矩阵就是输入的图像,粉色矩阵就是卷积层的神经元(指的是过滤器即卷积池),这里表示了有两个神经元(w0,w1)。outputvolume绿色矩阵就是经过卷积运算后的输出矩阵,这里的步长设置为2。粉色的矩阵(filter卷积池)滑动对蓝色的矩阵(输入图像)进行矩阵内积计算并将三个内积运算的结果与偏置值b相加(比如上面图的计算:(0+0+0)+(0+-2-2)+(0+0+0) + 1= 0- 4-+0+ 1 = -3),计算后的值就是绿框矩阵的一个元素。

卷积池向左滑动两步(步长为2)得如下:

同理卷积可得:

蓝色的矩阵(输入图像)对粉色的矩阵(filter)进行矩阵内积计算并将三个内积运算的结果与偏置值b相加(比如上面图的计算:2+(-2+1-2)+(1-2-2) + 1= 2 - 3 - 3 + 1 = -3),计算后的值就是绿框矩阵的一个元素。

下面是整个输入图像(5*5*3)先经过填充0,再经过两个卷积池(3*3)卷积后的整个过程,得出两个特征图outvolume

权值共享(参数共享)机制

  • 在卷积层中每个神经元连接数据窗的权重是固定的,每个神经元只关注一个特性。神经元就是图像处理中的滤波器,比如边缘检测专用的Sobel滤波器,即卷积层的每个滤波器都会有自己所关注一个图像特征,比如垂直边缘,水平边缘,颜色,纹理等等,这些所有神经元加起来就好比就是整张图像的特征提取器集合。
  • 需要估算的权重个数减少: AlexNet 1亿 => 3.5w
  • 一组固定的权重和不同窗口内数据做内积: 卷积

如下图是一组固定的输入图像经过不同的卷积池卷积得到不同的特征


激活

卷积计算之后,通常会加入偏置(bias), 并引入非线性激活函数(activation function),这里定义bias为b,activation function 是 函数f(),经过激活函数,得出结果

这里请注意,bias不与元素位置相关,只与层有关。主流的activation function 有如下:

卷积层的激活函数一般为函数relu,因为它的特点是收敛快,求梯度简单,但较脆弱,图像如下。

根据实际参数大小等性质调整。

三.池化层

池化层夹在连续的卷积层中间, 用于压缩数据和参数的量,减小过拟合。池化(pooling),是一种降采样操作(subsampling),池化层的主要目标是降低feature maps的特征空间,或者可以认为是降低feature maps的分辨率。因为feature map参数太多,而图像细节不利于高层特征的抽取。
简而言之,如果输入是图像的话,那么池化层的最主要作用就是压缩图像

池化层的具体作用:

  1. 特征不变性,也就是我们在图像处理中经常提到的特征的尺度不变性,池化操作就是图像的resize,平时一张狗的图像被缩小了一倍我们还能认出这是一张狗的照片,这说明这张图像中仍保留着狗最重要的特征,我们一看就能判断图像中画的是一只狗,图像压缩时去掉的信息只是一些无关紧要的信息,而留下的信息则是具有尺度不变性的特征,是最能表达图像的特征。
  2. 特征降维,我们知道一幅图像含有的信息是很大的,特征也很多,但是有些信息对于我们做图像任务时没有太多用途或者有重复,我们可以把这类冗余信息去除,把最重要的特征抽取出来,这也是池化操作的一大作用。
  3. 在一定程度上防止过拟合,更方便优化。

目前主要的pooling操作有:

  • 最大值池化 Max pooling:如上图所示,2 * 2的max pooling就是取4个像素点中最大值保留,实际用的较多的就是Max pooling
  • 平均值池化 Average pooling: 如上图所示, 2 * 2的average pooling就是取4个像素点中平均值值保留
  • L2池化 L2 pooling: 即取均方值保留

四.全连接层

全连接层同传统神经网络一样,神经元之间采用全连接的方式。在卷积神经网络模型中一般至少有一层全连接层,全连接层连接这卷积神经网络中的卷积网络与输出层,将卷积网络部分输出的二维特征信息转换成一维特征信息,(这里需要引入Flatten()层转化成一维向量)通过不断训练,隐式地得到输入样本的特征表示,再将这些特征表示送入输出层进行分类输出。

全连接层的神经元个数通常为4096,2048,1024,对于采用全连接的神经网络,很容易造成过拟合,所以对于全连接层需要加入Dropout层来防止过拟合现象。

以下网络模型就是传统神经网络,用的就是全连接层;


五.卷积神经网络的优缺点

优点
  •共享卷积核,对高维数据处理无压力
  •无需手动选取特征,训练好权重,即得特征分类效果好
缺点
  •需要调参,需要大样本量,训练最好要GPU
  •物理含义不明确(也就说,我们并不知道每个卷积层到底提取到的是什么特征,而且神经网络本身就是一种难以解释的“黑箱模型”)

六.典型的卷积神经网络

名称 特点
LeNet5 没啥特点-不过是第一个CNN应该要知道,具有一个输入层,两个卷积层,两个池化层,三个全连接层(其中包含输出层)
AlexNet 引入了ReLU和dropout,引入数据增强、池化相互之间有覆盖,三个卷积一个最大池化+三个全连接层
VGGNet 采用11和33的卷积核以及2*2的最大池化使得层数变得更深。常用VGGNet-16和VGGNet19
Google Inception Net 这个在控制了计算量和参数量的同时,获得了比较好的分类性能,和上面相比有几个大的改进:1、去除了最后的全连接层,而是用一个全局的平均池化来取代它; 2、引入Inception Module,这是一个4个分支结合的结构。所有的分支都用到了11的卷积,这是因为11性价比很高,可以用很少的参数达到非线性和特征变换。3、Inception V2第二版将所有的55变成2个33,而且提出来著名的Batch Normalization;4、Inception V3第三版就更变态了,把较大的二维卷积拆成了两个较小的一维卷积,加速运算、减少过拟合,同时还更改了Inception Module的结构。
微软ResNet残差神经网络(Residual Neural Network) 1、引入高速公路结构,可以让神经网络变得非常深2、ResNet第二个版本将ReLU激活函数变成y=x的线性

卷积神经网络的常用框架

Caffe
 •源于Berkeley的主流CV工具包,支持C++,python,matlab
 •Model Zoo中有大量预训练好的模型供使用
Torch
 •Facebook用的卷积神经网络工具包
 •通过时域卷积的本地接口,使用非常直观
 •定义新网络层简单
TensorFlow
 •Google的深度学习框架
 •TensorBoard可视化很方便
 •数据和模型并行化好,速度快

keras

TensorFlow的升级版,

操作简单,易于新手操作

七.总结

卷积网络在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,网络就具有输入输出对之间的映射能力。

猜你喜欢

转载自blog.csdn.net/hgnuxc_1993/article/details/115419813