六天搞懂“深度学习”之六：卷积神经网络

非充分训练是导致深度神经网络性能较差的原因，深度神经网络的重要性在于它为知识的分层处理打开了复杂非线性模型和系统方法的大门。

卷积神经网络（ConvNet）是一种专门用于图像识别的深度神经网络，该技术是在20世纪80年代至90年代之间发展起来的。然而，它被遗忘了很长的一段时间，因为在当时那个计算机还很落后的年代，它只是一种针对复杂图像的不可实现的技术。（计算能力的不断提高是神经网络高速发展的重要基石！）

Krizhevsky, A., Sutskever, I., and Hinton, G. (2012). ImageNet classification with deep convolutionalneural networks. In NIPS’2012.

这篇唤醒ConvNet的标志性论文，征服了大部分计算机视觉领域的研究人员，并开始进入快速发展阶段。

ConvNet不仅仅是一个具有众多隐藏层的深度神经网络，它是一个模仿大脑视觉皮层如何处理、识别图像的深度网络。

在图像识别之前必须处理并对比各类图像之间的特征，已有的图像特征提取技术包括SIFT、HoG、Textons、Spin image、RIFT和GLOH等。在ConvNet之前的研究中，特征提取器是由特定领域的专家设计的。因此，它需要花费大量的成本和时间，同时产生不一致的性能水平，这些特征提取器是完全独立于机器学习的。

在这里插入图片描述

独立于机器学习的特征提取器

ConvNet在训练过程中包括特征提取器，而不是由专家手动设计。ConvNet的特征提取器由特殊类型的神经网络组成，通过训练过程确定神经网络的权值。ConvNet将手动特征提取转化为自动提取是其主要特征和优势。

ConvNet特征提取器由特殊类型的神经网络构成

ConvNet的特征提取神经网络越深(包含的层数越多)，其识别效果就越好，但在训练过程中会造成一些困难，使得ConvNet在当时落后的技术条件下并不可行，因此一度被大家遗忘。

ConvNet由提取输入图像特征的神经网络和分类特征图像的神经网络组成。

在这里插入图片描述

ConvNet典型结构图，由特征提取网络和分类网络串行连接组成

特征提取神经网络由卷积层堆叠和池化层对组成。卷积层，顾名思义，使用卷积运算转换图像，它可以被认为是数字滤波器的集合。卷积层输出的新图像称为特征映射，特征映射强调原始图像的独特特征。

池化层将邻近像素组合成单个像素，因此，池化层减小了图像的尺寸。

在这里插入图片描述

卷积层实现过程示意图，圆形算子之间的正方形灰度图标表示卷积滤波器。卷积层产生与卷积滤波器相同数量的特征映射。应该注意的是，实际的ConvNet滤波器是通过训练来确定的，而不是通过人工决策来确定的。

卷积层的滤波器是二维矩阵，目前应用的卷积滤波器通常是5x5或3x3矩阵，甚至是1x1矩阵。卷积运算是位于两个矩阵相同位置的元素乘积之和。如上图所示，输入图像为4x4矩阵，卷积滤波器为2x2矩阵，输出图像为3x3矩阵。

虽然ReLU函数在当前的大多数应用中使用，但sigmoid函数和tanh函数也经常被使用。

池化层通常是从正方形矩阵中选择相邻的像素进行合成，而像素合成的矩阵大小因具体问题而异。像素代表值通常被设置为所选像素的平均值或最大值。

在这里插入图片描述

两种不同方法池化后的结果（上面是取均值，下面是取最大值）

池化层与卷积层的区别在于卷积滤波器是固定的，且池化层的卷积区域互不重叠。池化层在一定程度上能够补偿偏心和倾斜的物体。例如，池化层可以提高对图像中偏离中心位置的目标识别概率。此外，由于池化处理减小了图像大小，所以对于降低计算量和防止过拟合非常有益。

注意：池化层的滤波器是预先定义的，而卷积层的滤波器是通过训练来确定的。网络提取的特征越多，图像识别性能越好。

更多精彩文章请关注微信号：在这里插入图片描述

六天搞懂“深度学习”之六：卷积神经网络

猜你喜欢