为什么要将全连接层转化为卷积层 - 代码天地

为什么要将全连接层转化为卷积层

其他 2018-12-03 01:11:46 阅读次数: 0

转自：https://www.cnblogs.com/liuzhan709/p/9356960.html

理解为什么要将全连接层转化为卷积层

1.全连接层可以视作一种特殊的卷积

考虑下面两种情况：

特征图和全连接层相连，AlexNet经过五次池化后得到7*7*512的特征图，下一层全连接连向4096个神经元，这个过程可以看做有4096个7*7*512的卷积核和7*7*512的特征图进行卷积操作，最终得到1*1*4096的特征图，等价与全连接得到4096个神经元。
全连接层和全连接层相连，AlexNet的再下一层依然是4096个神经元，即4096个神经元和4096个神经元全连接，由(1)我们得到了1*1*4096的特征图，本次全连接过程可以看做存在4096个1*1*4096个卷积核，依次和1*1*4096的特征图进行卷积操作，等价与全连接。

2.网络改成全卷积形式后在某些场景可以提升效率

CS231课程中有如下陈述：实际操作中，每次这样的变换都需要把全连接层的权重W重塑成卷积层的滤波器。那么这样的转化有什么作用呢？它在下面的情况下可以更高效：让卷积网络在一张更大的输入图片上滑动（译者注：即把一张更大的图片的不同区域都分别带入到卷积网络，得到每个区域的得分），得到多个输出，这样的转化可以让我们在单个向前传播的过程中完成上述的操作。

举个例子，如果我们想让224x224尺寸的浮窗，以步长为32在384x384的图片上滑动，把每个经停的位置都带入卷积网络，最后得到6x6个位置的类别得分。上述的把全连接层转换成卷积层的做法会更简便。如果224x224的输入图片经过卷积层和汇聚层之后得到了[7x7x512]的数组，那么，384x384的大图片直接经过同样的卷积层和汇聚层之后会得到[12x12x512]的数组（因为途径5个汇聚层，尺寸变为384/2/2/2/2/2 = 12）。然后再经过上面由3个全连接层转化得到的3个卷积层，最终得到[6x6x1000]的输出（因为(12 - 7)/1 + 1 = 6）。这个结果正是浮窗在原图经停的6x6个位置的得分！

面对384x384的图像，让（含全连接层）的初始卷积神经网络以32像素的步长独立对图像中的224x224块进行多次评价，其效果和使用把全连接层变换为卷积层后的卷积神经网络进行一次前向传播是一样的。自然，相较于使用被转化前的原始卷积神经网络对所有36个位置进行迭代计算，使用转化后的卷积神经网络进行一次前向传播计算要高效得多，因为36次计算都在共享计算资源。这一技巧在实践中经常使用，一次来获得更好的结果。比如，通常将一张图像尺寸变得更大，然后使用变换后的卷积神经网络来对空间上很多不同位置进行评价得到分类评分，然后在求这些分值的平均值。

上面给出了转化为全卷积的两个理由，一是不用限制死输入图像的大小，提供方便。二是前向传播时效率更高。

我的理解与推理

首先解释方便，对于384*384的图片，不修改AlexNet的结构使之适应384*384(依然使用原来224x224输入的结构)，直到经过汇聚层得到[12x12x512]的数组时，网络运行没有任何问题，按照原来的架构，接下来要将特征图平铺和4096个神经元全连接，这时候就出问题了，因为原架构平铺后是7x7,现在是12x12，无法使用之前的参数矩阵了，但是将全连接层转化为卷积层后可继续进行，并最终得到6x6的正确输出，仅仅将网络的全连接层等价转化为卷积层，就能接收更大的图片，这显然方便了很多。

然后解释高效，第一层卷积，对于224x224的一张图片，假设卷积耗时为t，那么前向传播时，36张图片的时间为36t，对于384x384的图片，耗时同样为6*6*t = 36t，假设下一层为池化层，每次2x2池化的时间为ti,对于36张224x224的图片，总耗时36*112*112*ti = 451584ti,对于384x384的图片，耗时为192*192*ti = 36864ti << 451584ti，类似进行计算下去，发现全卷积每一层的耗时都少的多。因此全卷积效率更高，直观上如何得到这个结论呢？将384x384的图片按照32的步长切成224x224后得到36张图片，这36张图片有很多区域重叠了，本来一次池化就可以得到结果的，但是输入36张图片后，相同区域进行了多次重复池化操作，因此耗费了更多的时间。

猜你喜欢

转载自blog.csdn.net/loving_coco/article/details/84714071

为什么要将全连接层转化为卷积层

理解为什么要将全连接层转化为卷积层

为什么目标检测中要将全连接层转化为卷积层？

卷积层上的滑动窗口（将全连接层转化为卷积层）

CNN全连接层和卷积层的转化

为什么使用卷积层替代CNN末尾的全连接层

为什么可以用1*1卷积层代替全连接层

卷积层代替全连接层

全连接层与卷积层的区别

用卷积层替代全连接层

卷积层和全连接层的区别

全连接层、卷积层、池化层

卷积网络基础(卷积层和全连接层)

【CV】RepMLP：将卷积重新参数化为用于图像识别的全连接层

卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层

卷积神经网络--全连接层

在网络中用卷积层代替全连接层

为什么svm算法在求解过程中，需要将原始问题转化为对偶问题？

ROIPooling的意义？全连接层输入需要固定尺度？全连接层的实现？为什么需要两个全连接层？

【卷积神经网络】卷积层，池化层，全连接层

什么是1*1卷积？1*1的卷积核和全连接层有什么异同？

卷积神经网络全连接层（稠密层）是什么？（全连接层就是每一个结点都与上一层的所有结点相连的网络层）

卷积神经网络——输入层、卷积层、激活函数、池化层、全连接层（转载）

TensorRT C++ api创建输入层、卷积层、池化层、激活层、全连接层

全连接层的作用是什么？

利用tensorflow实现神经网络卷积层、池化层、全连接层

总结全连接层，卷积层，池化层等。。各自的作用

【深度学习笔记】关于卷积层、池化层、全连接层简单的比较

关于卷积层，全连接层，池化层的相关输出计算

卷积层+池化层+全连接层训练Mnist数据

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)