深度网络解析之-Mask RCNN

Mask RCNN 综合了 Faster RCNN 和 FCN，并且改良了ROI Pooling，提出了ROI Align；

Faster RCNN 架构（图片参考 reference）：

Mask RCNN与Faster RCNN的区别:

ROI Pooling 流程（ROI Pooling的介绍见Faster RCNN的Fast RCNN部分）：

ROI Pooling 存在的问题：

因此，Mask RCNN中提出了ROI Align改进上述问题（对分割小目标效果提升很大）:

ROI映射到feature map后，将候选区域分割为k*k个单元，每个单元固定四个坐标的位置，用双线性插值的方法计算这四个点的位置，然后做max pooling操作；

主要改进：

说明：

双线性差值的采样点（grid points）的确定：如果采样点是1，那就是每个单元(bin)的中心点；如果采样点是4，那就将bin均分为4个方格，取四个方格的中心点为grid points；
ROI pooling 和 ROI Align 的BP公式：ROI Align详细细节；

Mask RCNN架构简图（ref）：

Mask RCNN 详细架构（ref）：

Mask RCNN 的 head architecture：

Mask Branch：

作者没有使用FCN的SoftmaxLoss（多分类），而是利用了 a per-pixel sigmoid 损失函数（二分类）， $\large L_{mask}$ 定义为平均二值交叉熵损失（average binary cross-entropy loss） ；
输出 K*m*m 的二值mask预测图（每个类一张，与阈值0.5比较输出二值mask）；
在训练时，对于属于第k个类别的RoI，仅有第k个mask对 $\large L_{mask}$ 有贡献；
这样避免了类间的竞争，对每个类别都会生成掩模，将分类任务交付给classification分支；

Mask RCNN loss:

$\large \large L_{final} = L_{cls}+L_{box}+L_{mask}$ ，其中 $\large L_{box}$ 和 $\large L_{mask}$ 都是对positive RoI才会起作用；