DropBlock论文阅读笔记

原文地址:https://arxiv.org/pdf/1810.12890.pdf

介绍:

       dropout的主要缺点是将特征随机地丢弃,dropout正则化方法广泛用于全连接层,且效果较好,然而对于卷基层却效果欠佳。原因可能是卷基层的激活单元是空间相关的,所以信息还是会通过卷基层送到下一层。因此,需要一种结构化形式的dropout来对卷积网络归一化——DropBlock,将特征图相邻区域的单元丢弃。此单元可以提高准确率和超参数选择的鲁棒性。当DropBlock丢弃相关区域中的特征时,网络必须在其他地方寻找证据来拟合数据。如图1:

 相关工作:

        很多由dropout引申的卷积网络正则化方法如DropConnect,maxout,StochasticDepth,DropPath等都是通过给卷积网络加入噪声来防止训练数据的过拟合,大部分成功的方法都需要噪声结构化。DropBlock与它们相比,更通用,可用在卷积网络的任意处。

DropBlock

       DropBlock有两个主要的参数:block_size(要丢弃的块的尺寸)和γ(控制要放置多少激活单元),有两种方式:一种是共享的DropBlock mask应用于不同的特征通道,另一种是每个特征通道有自己的DropBlock mask,后者效果更好。算法如下:

设置block_size的值: 此设为常数,如果block_size是1,DropBlock类似dropout,如果block_size是覆盖整个特征图,DropBlock类似SpatialDropout

设置值y:

Scheduled DropBlock

         一开始就将keep_prob设置为小值会影响学习,而keep_prob由1逐渐降到目标值会更有鲁棒性。文中使用线性的scheme来降低keep_prob   

实验

哪里应用DropBlock

        所有的实验基于残差网络,只将DropBlock应用在卷基层后或卷积层及跳跃连接后。

分析

发布了19 篇原创文章 · 获赞 13 · 访问量 3万+

猜你喜欢

转载自blog.csdn.net/weixin_39958313/article/details/86008390