我的Mask RCNN阅读笔记

其他 2021-04-06 22:53:42 阅读次数: 0

Mask R-CNN

Mask R-CNN在Faster R-CNN的bbox识别分支基础上，加入了预测Mask的分支，两分支是平行的，解决的是图像语义分割的任务。其创新点具体而言：

1 Mask分支的加入：Mask R-CNN在Faster R-CNN基础上加入的预测分割Mask的分支，用于对每一个RoI进行分割Mask的预测。这个mask分支实际上是一个小型的FCN在RoI上进行预测，使得的达到像素级别的分割效果。有了Faster R-CNN，Mask R-CNN会十分简单地就可以实现，而且只会添加很小的计算成本。如何构建mask分支会很大程度上影响预测结果。
2 RoIAlign改善空间对齐问题：Faster R-CNN并没有设计网络的输入像素到输出像素的对齐，这一点可以从RoIPool在空间上的特征提取的粗糙性可以看出。为了解决这一对齐问题，Mask R-CNN提出了一种简单、免量化的网络层，称为RoIAlign（虽然变化不大但却成效显著）。
3 每个类别单独预测Mask：每个类别都单独进行Mask预测学习，使每个类的输出为目标和背景的二值Mask，而分类任务让分类分支进行类别预测，而不是进行多个类别和分类任务同时预测（实验说明这样效果糟糕）

回顾：

Faster-RCNN包含两个阶段：

1 Region Proposal Network（RPN），提供候选的目标BBox；
2 RoIPool处理每一个候选区，提取特征，分类和BBox回归。
上面所述这两个阶段使用了相同的特征图，以达到加速处理速度的目的。

方法

损失函数

和Faster R-CNN相同，分两阶段：

1 Region Proposal Network（RPN），提供候选的目标BBox；
2 RoIPool处理每一个候选区，提取特征，有两个并行分支进行分类和BBox回归；加入第三个并行分支，每一个RoI输出一个二值化的mask。（在效果上比同期将分类任务依赖于mask要好）。

这样的多任务下，对于每一个处理的RoI的损失函数为： $L=L_{cls}+L_{box}+L_{mask}$
其中

1 $L=L_{cls}$ 分类任务损失(u为真实类别，p为softmanx输出):
$L_{cls}(p,u)=-\log{p_u}$
2 $L_{box}$ BBox回归损失：
$L_{\mathrm{Box}}\left(t^{u}, v\right)=\sum_{i \in\{\mathbf{x}, \mathbf{y}, \mathbf{w}, \mathbf{h}\}} \operatorname{smooth}_{L_{1}}\left(t_{i}^{u}-v_{i}\right) ，$
其中
$\text { smooth }_{L_{1}}(x)=\left\{ \begin{array}{ll} 0.5 x^{2} & \text { if }|x|<1 \\ |x|-0.5 & \text { otherwise } \end{array}\right.$
3 mask预测分支输出为 $K\times m^2$ 维，其中 $K$ 为类别个数，每一个类别mask预测输出图片分辨率为 $\times m$ ，mask上每个像素都使用 $s i g m o i d$ 函数处理，并定义 $L_{mask}$ 为平均二值交叉熵损失。对于第i个mask的损失函数 $Loss_{mask^i}$ （设mask每个像素的真实标注为 $y_i\in (0,1)$ ）可以表示为： $Loss_{mask^i}=-\frac{1}{m\times m} \sum_{j=1}^{m\times m} y_{j} \cdot \log \left(p\left(y_{j}\right)\right)+\left(1-y_{j}\right) \cdot \log \left(1-p\left(y_{j}\right)\right)$
对于某个RoI已知真实类别 $k$ ， $L_{mask}$ 定义只在第 $k$ 类别上，换言之，其他非真实类别的mask输出并不会参与到到 $L_{mask}$ 上。这也就意味着将会依赖于分类器的输出来确定将要使用的mask，从而计算 $Loss_{mask^i}$ ，而且每一个mask之间的预测都是独立的，这要有利于输出更好的结果（其他使用混合交叉熵的就没有那么好的效果）。

Mask表示

由于mask的输出不像是类别和BBox预测那样，最后需要坍缩到一个短向量形式，所以自然地就采用卷积的形式保留空间信息，其中mask预测分支使用的是FCN（Fully Convolutional Network）的模型，对于每一个RoI都进行处理，但是由于RoI都是从原图上进行的采样的小图形式，所以为了对齐，加入了RoIAlign的网络层来让Mask对齐到原图上。

RoIAlign层

RoIAlign是为了解决由RoIPool中量化取整的操作带来的位置对齐偏差问题，所以为了更好第解释RoIAlign的原理，把RoIPool和RoIAlign同时进行说明。
无论是RoIAlign和RoIPool的作用都是为了让RoI图片映射为特定大小的feature map。

RoIPool

上图中，步骤：

1 输入图像800*800，通过VGG16卷积层网络（feat_stride=32）后，输出800/32=25,25*25的feature map。
2 假设原图中有一个region proposal大小后为665*665，经过VGG16后，映射到feature map上大小为655/32=20.78，即20.78*20.78大小，此时计算中取整，也就是在feature map上该region proposal的映射大小变为20*20（这一过程为量化取整）。
3 进行pooling操作，设经过RoIPool以后输出的feature map大小为7*7，那么可以求得pooling的核大小为20/7=2.86，此时在计算中取整，那么可以得到pooling核大小为2*2（这一过程为量化取整）。RoIPool中使用了MaxPooling（kernel size=2*2,stride=2），即在每2*2（no overlapping）的区域内选取最大值像素作为输出。
4 最后得到多个7*7大小的feature map，输出到后续网络中。

RoIAlign

1 输入图像800*800，通过VGG16卷积层网络（feat_stride=32）后，输出800/32=25,25*25的feature map。
2 假设原图中有一个region proposal大小为665*665，经过VGG16后，映射到feature map上大小为655/32=20.78，即20.78*20.78大小，也就是在feature map上该region proposal的映射后大小变为20.78*20.78，注意此时RoIAlign没有进行取整操作。
3 设经过RoIAlign以后输出的feature map大小为7*7，也就是将map分为了49个bin，那么可以求得bin的核大小为20.78/7=2.97，此时在计算中取整，那么可以得到bin大小为2.97*2.97（同样在量化过程中不进行取整操作）。
4 设采样点数为4，即对于每一个bin大小2.97*2.97，平分四份，每一份取其中心点位置，而中心点位置的像素，采用双线性插值法进行计算像素值，最后得到四个点的像素值。在得到这四个像素值基础上选取最大值作为该bin输出。
5 最后得到多个7*7大小的feature map，输出到后续网络中。

可以看出，RoIAlign其实是在RoIPool上，完全去掉了量化取整的操作，从而避免了由于这个操作所造成的的空间精度下降问题。

如有理解错误，请多多包涵

猜你喜欢

转载自blog.csdn.net/Johnson_star/article/details/105321437

我的Mask RCNN阅读笔记

Mask-RCNN源码阅读笔记

Mask RCNN 源码阅读

论文阅读——Mask RCNN

【代码研读】Mask RCNN代码阅读笔记（一）总览篇

Mask RCNN笔记

Mask RCNN 学习笔记

Mask RCNN学习笔记

Mask RCNN 算法笔记

Mask RCNN论文笔记

Mask Rcnn(Keras)学习笔记

【代码研读】Mask RCNN代码阅读笔记（二）骨架网络backbone和入口

mask rcnn

mask-RCNN笔记——coco安装及使用

mask rcnn 论文学习笔记

论文笔记：Mask_rcnn (转)

[深入浅出] Mask RCNN笔记

【论文研读笔记---十】Mask-RCNN

FASTER RCNN阅读笔记

学习笔记-目标检测、定位、识别（RCNN，Fast-RCNN, Faster-RCNN，Mask-RCNN，YOLO，SSD 系列）

Mask-RCNN原理

Mask-RCNN

mask rcnn解读

Mask RCNN 原理

【转】Mask RCNN解读

mask rcnn 论文翻译

mask rcnn的TensorFlow的调试

Mask RCNN学习

Mask RcNN论文翻译

Mask_RCNN配置

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)