Deep Layer Aggregation论文阅读

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_31390999/article/details/84487358

深层聚合 主要是解决深层网络中各层之间的联系问题,认为原来的“slip”太浅,不能很好的学习和保存原来的信息,于是提出DLA,分为IDA(迭代深度聚合)和HDA(分层深度聚合),使用更好的参数提高分辨率,前者统合分辨率和规模,遵循基础层次来逐步确定分辨率和聚合规模,后者合并所有模块和渠道的功能,汇集了自己的树状结构连接层次结构,这些连接交叉合并阶段以聚合不同级别的表示。DLA可广泛应用于大规模图像分类,细化识别,语义分割和边界检测中。

主要idea  

密集连接+特征金字塔  深层聚合统一了语义和空间融合,以更好地捕捉什么和在哪里。 我们的聚合架构包含并扩展密集连接的网络,并具有分层和迭代跳过连接的金字塔网络,从而加深了表示和重新分辨率。扩展了FPN,引入了非线性。

摘要

视觉识别需要丰富的表示,从低到高,从小到大,从细到粗的分辨率。即使在卷积网络中具有深度特征,孤立的层也是不够的:复合和聚合这些表示可以改进对什么和在哪里的推断。架构工作正在探索网络骨干的许多方面,设计更深或更广的架构,但如何最好地聚合网络中的层和块应该得到进一步的关注。尽管已经结合跳过连接来组合层,但这些连接本身已经“浅”,并且仅通过简单的一步操作融合。我们通过更深入的聚合来扩充标准体系结构,以更好地融合各层的信息。我们的深层聚合结构以迭代和分层方式合并特征层次结构,使网络具有更高的准确性和更少的参数。跨架构和任务的实验表明,与现有的分支和合并方案相比,深层聚合可提高识别和分辨率。

图1

深层聚合统一了语义和空间融合,以更好地捕捉什么和在哪里。 我们的聚合架构包含并扩展密集连接的网络,并具有分层和迭代跳过连接的金字塔网络,从而加深了表示和重新分辨率。

扫描二维码关注公众号,回复: 5495219 查看本文章

introduction

更大的非线性,更大的容量和更大的接收场通常会提高精度,但对于优化和计算可能会有问题。 为了克服这些障碍,已经采用了不同的模块或模块来平衡和调节这些数量,例如降低维数的瓶颈[29,39,17]或特征和梯度传播的残差,门控和连接连接[17,38,19]。 根据这些方案设计的网络具有100多个甚至1000多个层。

然而,需要进一步探索如何连接这些层和模块。 从LeNet [26]到AlexNet [23]到ResNet [17]的分层网络依次堆叠层和模块。 分层精度比较[11,48,35],可转移性分析[44]和表示可视化[48,46]表明,更深层提取更多语义和更全局的特征,但这些迹象并不能证明最后一层是最终的 任何任务的表示。 实际上,跳过连接已被证明对分类和回归[19,4]以及更结构化的任务[15,35,30]有效。 聚合,如深度和宽度,是架构的关键维度。

在这项工作中,我们研究如何聚合层以更好地融合语义和空间信息以进行识别和本地化。 扩展当前方法的“浅层”跳过连接,我们的聚合架构包含更多深度和共享。 我们介绍了两种深层聚合(DLA)结构:迭代深度聚合(IDA)和分层深度聚合(HDA)。 这些结构通过架构框架表达,独立于主干的选择,以与当前和未来网络兼容。 IDA专注于融合分辨率和规模,而HDA则专注于合并所有模块和渠道的功能。 IDA遵循基础层次结构来逐步确定分辨率和聚合规模。 HDA汇集了自己的树状结构连接层次结构,这些连接交叉并合并阶段以聚合不同级别的表示。 我们的方案可以结合起来进行复合改进。

我们的实验评估了跨标准体系结构和任务的深层聚合,以扩展ResNet [16]和ResNeXt [41],用于大规模图像分类,细化识别,语义分割和边界检测

Related Work

深度学习通过建立网络可以作为主干来扩散视觉,通过传递学习[11,48]和用于对象检测的元算法[14]和语义分割[35],通过转移学习[11,48]广播改进不是一次,而是通过每个更好的架构。 以基础架构为参数。

我们的聚合体系结构与融合特征层次结构的领先方法密切相关。 融合的关键轴是语义和空间。 跨语音和深度的语义融合或聚合可以改善对内容的推断。 空间融合,或跨决议和规模汇总,改善对地点的推断。 深层聚合可以看作是两种融合形式的结合。

密集连接的网络(DenseNets)[19]是语义融合的主要架构系列,旨在通过跳过连接来更好地传播特性和损失,这些跳过连接可以分阶段连接所有层。 我们的分层深度聚合分享了对短路径和重用的重要性的相同见解,并扩展了与跨越阶段和比串联更深层融合的树的跳过连接。 密集连接和深度聚合的网络可实现更高的准确性以及更好的参数和内存效率。

特征金字塔网络(FPN)[30]是空间融合架构的主要系列,旨在通过自上而下和横向连接在金字塔特征层次的层次上均衡分辨率和标准化语义。 我们的迭代深度聚合同样提高了分辨率,但通过非线性和渐进式融合进一步加深了表示。 FPN连接是线性的,较早的级别不会更多地聚合以抵消它们的相对语义弱点。 金字塔和深度聚合的网络能够更好地解决结构化输出任务的内容和位置。

Deep Layer Aggregation

我们将聚合定义为整个网络中不同层的组合。 在这项工作中,我们专注于一系列架构,以有效地聚合深度,分辨率和比例。 如果它是组合的,非线性的,并且最早的聚合层通过多个聚合,我们称一组深聚合。

由于网络可以包含许多层和连接,因此模块化设计有助于通过分组和重复来抵消复杂性。 图层被分组为块,然后通过其特征分辨率将其分组为多个阶段。 我们关注聚合块和阶段。

Aggregation Nodes 聚合节点的主要功能是组合和压缩其输入。 节点学习选择和投影重要信息,以便在输出中保持相同的维度作为单个输入。 在我们的体系结构中,IDA节点始终是二进制的,而HDA节点具有可变数量的参数,具体取决于树的深度。

IDA

HDA

虽然聚合节点可以基于任何块或层,但为了简单和有效,我们选择单个卷积,然后是批量归一化和非线性。 这避免了聚合结构的开销。 在图像分类网络中,所有节点都使用1×1卷积。 在语义分割中,我们添加了更高级别的迭代深度聚合来插入特征,在这种情况下使用3×3卷积。

由于剩余连接对于组装非常深的网络很重要,我们还可以在聚合节点中包含剩余连接。 但是,目前尚不清楚它们是否需要聚合。 对于HDA,从任何块到根的最短路径最多是层次结构的深度,因此沿着聚合路径可能不会出现减小或爆炸的梯度。 在我们的实验中,我们发现当最深层次结构具有4个或更多层次时,节点中的残余连接可以帮助HDA,而对于具有较小层次结构的网络可能会有害。 我们的基本聚合,即等式1和2中的N,由以下定义:

在批量归一化后进行运算,(4)是引入残差后的运算公式(残差网络是一篇很经典的论文,在看其它的之前一定要看残差网络和批量归一化)。

我们在实验中实例化的网络使用了三种类型的残差块[17,11]。 基本块将堆叠卷积与身份跳过连接组合在一起。 瓶颈块通过1×1卷积降低维数来规范卷积堆栈。 拆分块通过将通道分组为多个单独的路径(称为拆分的基数)来使功能多样化。 在这项工作中,我们将瓶颈和拆分块的输出和中间通道数量之间的比率减少一半,并且我 们的拆分块的基数为32.请参阅引用的文章,了解这些块的确切细节。

conclusion

聚合是架构的决定性方面,随着模块数量的增加,它们的连接变得更加重要。 通过将用于聚合信道,规模和分辨率的体系结构相关联,我们确定了对更深层聚合的需求,并通过迭代深度聚合和分层深度聚合来解决它。 与基线网络相比,我们的深层聚合网络更准确,可以更有效地使用参数和计算。 我们的聚合扩展改进了主要架构,如残留和密集连接的网络。 弥合架构的差距可以更好地利用层次结构。

猜你喜欢

转载自blog.csdn.net/qq_31390999/article/details/84487358