论文分享《A review of convolutional neural network architectures and their optimizations》

一、发表期刊

“Artificial Intelligence Review”

JCR分区: Q1
中科院分区升级版: 计算机科学2区
影响因子: 9.59

二、作者&出版日期

Shuang Cong, Yang Zhou

03/2023

三、论文地址

A review of convolutional neural network architectures and their optimizations | SpringerLink

四、摘要

本文对卷积神经网络的典型结构及其优化的研究进展进行了详细的分析和阐述。本文提出了一种典型的基于模块的CNNs架构分类方法,以容纳更多具有多种特征的新型网络架构,使其难以依赖原有的分类方法。通过对不同网络架构的优劣分析和性能比较,对6种典型的CNNs架构进行了详细的分析和说明。对CNNs架构的内在特性也进行了探索。此外,本文基于各种优化算法的数学原理,提供了网络压缩和加速网络架构优化算法的综合分类。最后,本文分析了NAS算法的策略,讨论了CNNs的应用,并对当前CNNs架构及其优化的挑战和前景进行了展望。解释了优化不同网络架构类型带来的优势,为在具体设计和应用中建设性地选择合适的CNN提供了依据。本文将帮助读者在具体的设计和应用中选择合适的CNN。

四、研究背景

本文分析卷积神经网络(CNN)的典型架构及其优化。论文详细分析和阐述了不同网络架构的优缺点和性能比较,并提供了基于各种优化算法的网络压缩和加速网络架构优化算法的全面分类。此外,本文还分析了NAS算法的策略,讨论了CNNs的应用,并阐明了当前CNNs架构及其优化的挑战和前景。

五、本文研究结果

1.本文提出的六种典型CNNs架构

1.基础网络架构;

2.卷积分离;

3.跨层连接思想;

4.深度可分离卷积;

5.目标检测CNNs;

6.Transformer编码器;

2.网络优化技术

1.网络剪枝;(细粒度剪枝、向量级剪枝、核级剪枝、组级剪枝、过滤器级剪枝)

2.张量分解;(奇异值分解、Tucker分解、CP分解、块项分解、张量链分解)

3.网络量化;(二进制量化、三进制量化、多比特量化、Hash量化)

4.知识迁移;

六、CNN的发展

卷积神经网络的体系结构经历了30多年的研究和不断发展。其性能提升的主要动力来源于先进模块的设计和广泛的识别能力。先进的卷积神经网络模块侧重于改进、重新设计和模块化的卷积神经网络架构,从而可以在深度、宽度和空间利用率方面优化网络。同时,更广泛的识别能力有助于在图像和视频识别等衍生应用中获得更好的网络效率。

上图展示了根据各种网络提出的思想和各自的架构特点,对各种CNNs的架构、分类和改进过程的时间顺序总结。论文通过将现有CNNs分类为基础网络架构、卷积分裂、跨层连接思想、深度可分离卷积、目标检测CNNs和Transformer编码器,探究了典型CNNs架构的发展历程。

(后续将会根据该论文进行的模块区分,结合每种架构的原始论文,单独整理为博客进行讲解)

七、CNNs架构

典型CNN的结构通常包括卷积层和池化层之间的交替。以下图所示的基本Le Net - 5架构为例,卷积神经网络架构由输入层、卷积层、池化层、FC层和输出层4部分组成。CNNs架构在神经网络架构的设计中起着重要的作用,因为更合理的网络架构可以增强层与层之间的拟合效果或减少网络中的冗余计算,这通常意味着它可以带来更优越的性能。

1.卷积层

该过程是在特征图上滑动一个预定义的固定大小窗口,分步提取各个位置的相邻特征瓦片,并将每个特征瓦片与学习到的权重矩阵卷积核进行张量积,然后对得到的向量空间进行重组,得到新的张量。工作原理如下图所示:

2.池化层

池化层也称为下采样层,一般包括maxpooling、均值池化和随机池化。最大池化取邻域内特征点的最大值,均值池化取邻域内特征点的平均值,随机池化取邻域内随机特征点的值。

3.激活函数

激活函数在卷积神经网络中起到决策作用,有利于学习非线性复杂模式。它们主要应用于将非线性因素引入神经网络以增强其拟合能力。常用的激活函数如下:

与sigmoid和tanh等函数相比,过大和过小的输入都不会使ReLU趋于饱和。因此,ReLU及其变体在克服梯度消失问题方面优于sigmoid和tanh等传统激活函数。对于Maxout激活函数,在保留ReLU函数线性和不饱和度优势的基础上,避免了神经元死亡等问题。

4.全连接层

全连接( FC )层一般位于卷积神经网络的最后部分,用于将上一层输出的二维特征信息转换为一维分类信息。它类似于多层感知器( MLPs )的隐藏层,其中输出通过前一层FC神经元的加权组合获得。

八、总结

博主认为本篇综述涵盖内容全面,基本包含了CNNs的经典模型和较为前沿的模型,并且发布时间较新,在对CNNs和优化策略的结构分类上,也十分清晰明确。因此,博主在本章博客中只对部分基础内容进行解释,并在后续围绕该篇论文的结构,对各个网络及优化策略进行总结。

猜你喜欢

转载自blog.csdn.net/damadashen/article/details/130851436