【组会整理及心得】PIDNet、CMNeXt、PMDRnet

【CVPR2023】PIDNet: A Real-time Semantic Segmentation Network Inspired from PID Controller

【CVPR2023】PIDNet: A Real-time Semantic Segmentation Network Inspired by PID Controllers - 知乎

【本文贡献】

  1. 在深度CNN和PID控制器之间建立联系,提出了一种基于PID控制器架构的三分支网络。
  2. 提出了高效模块,比如用于平衡详细和上下文特征的Bag融合模块,提高PIDNets的性能。

【网络结构】

这里的PID源自于自动化领域,P是比例控制器,I是积分控制器,D是微分控制器,这三个共同组成PID控制器。PID控制器和网络之间的对比如下图所示:

PIDNet有三个分支,比例分支P负责解析和保留高分辨率特征图中的详细信息,积分分支I负责聚合局部和全局的上下文信息以捕获远距离依赖,微分分支D负责提取高频特征以预测边界区域。

P分支中的Pag是像素注意力引导模块,用于有选择地学习高频特征,结构如下图所示,类似于selective kernel :

 I分支中的PPM用于高效聚合上下文信息,Bag用于平衡细节和背景,结构如下图,其中PPM采用了多尺度的金字塔结构以形成局部和全局上下文表示,Bag即边界注意制导的融合模块,分别用细节和上下文特征填充高频和低频区域:

 

【心得体会】

本文是一个根据自动化领域的PID这个概念来搭建模型的一个工作,把其他学科领域的合适概念用在深度学习的模型上,可以有希望构造出新颖的模型。

扫描二维码关注公众号,回复: 15353074 查看本文章

【CVPR2023】Delivering Arbitrary-Modal Semantic Segmentation

【CVPR2023】Delivering Arbitrary-Modal Semantic Segmentation - 知乎

【本文贡献】

  1. 为任意模式语义分割(AMSS)创建了新的基准DELIVER(Depth, LiDAR, multiple Views, Events, and RGB),包括四种模式、四种不利天气条件和五种传感器故障模式。
  2. 回顾和比较了不同的多模式融合范例,并提出了具有非对称体系结构的Hub2Fuse范例来实现AMSS。
  3. 提出了一种通用的任意跨模式融合模型CMNeXt,其中自查询中心(SQ-Hub)用于选择信息特征,并行池混合器(PPX)用于获取鉴别线索。

【网络结构】

本文提出了两个观察发现:①模态越多,性能应该是单调上升的,但以往模型缺陷使得没展示出这一点;②多个传感器同时运作有希望能有效对抗单个传感器的损坏。

对于第二个观察,本文提出了DELIVER数据集,针对第一个观察,本文提出了CMNeXt。

CMNeXt是两个分支的非对称架构,一个用于RGB,另一个用于各种辅助模态,其中的创新性结构为自查询中心SQ-Hub,它作用于与RGB分支融合之前,从所有模态中动态选择信息量大的特征,沿着Attention取最大值,可以减少计算量。

【心得体会】

本文是一个融合任意模态特征的工作。

【TGRS2022】PMDRnet: A Progressive Multiscale Deformable Residual Network for Multi-Image Super-Resolution of AMSR2 Arctic Sea Ice Images

【本文贡献】

  1. 针对北冰洋海冰被动微波图像,设计了一种基于深度残差卷积网络的渐进式多尺度可变形残差网络PMDRnet。
  2. 为了处理复杂和大规模的北极海冰运动,设计了一种渐进对准策略和多尺度可变形卷积(DConv)对准单元。此外,利用网络中的时间注意机制,实现了多时相对齐特征的自适应融合。
  3. 为了提高海冰分辨率,获得更好的北极SIC反演结果,基于多通道AMSR2图像亮温的偏振差异,设计了海冰相关损失函数。

【网络结构】

本文主要针对的是基于深度学习的多图像超分辨率DL-MISR,DL-MISR的工作主要包括对齐、融合和重建。

本文的网络也是包括对齐、融合和重建三个部分,对齐部分使用5个图像作为一个序列,输入和输入都是双通道数据,包括89-GHz通道的水平偏振图像和垂直偏振图像,在进行对齐的过程中使用了渐进式对齐策略和多尺度DConv对齐单元,以级联的方式实现了渐进对齐。

渐进对齐等价于将序列中的运动分解为每个级联的两个相邻图像,最后所有图像间接对齐到中间的目标图像的特征。多尺度DConv对齐单元如下图所示,使用了3个尺度的偏移获得邻域信息作为补充。

 融合部分使用的是自适应融合模块,使用时间注意力机制获得融合特征,根据序列中图像和目标图像的信息相似度来调整关注,越相似关注越多。

【心得体会】

本文是一个基于深度学习的多图像超分辨率的工作,是之前组会中论文《【JSTARS23】Super-Resolution-Aided Sea Ice Concentration Estimation From AMSR2 Images by Encoder–Decoder Networks With Atrous Convolution》的一部分。

猜你喜欢

转载自blog.csdn.net/qq_55708326/article/details/130828551