1、Mask R-CNN网络的整体结构:
RPN + ROIAlign + Fast R-CNN + FCN,如图:
2、Mask R-CNN概念
Faster R-CNN为每个候选目标输出一个类标签和一个边框偏移量。我们添加了一个输出目标掩模的第三条分支。附加的掩模输出与类输出和边框输出不同,需要提取对象更精细的空间布局。
Mask R-CNN采用相同的两级,第一级是完全相同的(即RPN)。在第二级,与预测(类和边框偏移)并行,Mask R-CNN还会为每一个RoI输出一个二分类掩模。
核心部分参考:https://blog.csdn.net/xiamentingtao/article/details/78598511
https://blog.csdn.net/WZZ18191171661/article/details/79453780
详解 ROI Align 的基本原理和实现细节:http://blog.leanote.com/post/[email protected]/b5f4f526490b