I. Resumen
Tanto la segmentación de instancias como la segmentación semántica pueden segmentar imágenes a nivel de píxel. La diferencia es que la segmentación de instancias puede distinguir diferentes individuos, pero la segmentación semántica no.
(Segmentación de instancias) (Segmentación semántica)
2. Estructura de la red
En comparación con Faster RCNN, Mask RCNN reemplaza RoI Plooing con RoI Align . Y una rama de segmentación de instancias se conecta en paralelo fuera de Faster RCNN .
1. Estructura de la máscara
La rama Máscara y la rama de predicción no comparten RoI Align, y el mapa de características final del RoI de la rama Máscara es 14*14. La estructura es la siguiente:
El resultado es 28*28*numclasses, con máscaras previstas para cada clase.
Durante el entrenamiento de la red, RPN proporciona el objetivo de la rama Máscara; pero durante la predicción, Fast RCNN proporciona el objetivo de la rama Máscara, porque durante el entrenamiento, PRN puede proporcionar múltiples valores de predicción (cajas) para una red, que es equivalente a la mejora de datos; mientras que la predicción , solo se obtendrá un cuadro de predicción.
2.RoI Alinear
RoI Pooling calcula la distancia de desplazamiento desde el objetivo hasta la esquina superior izquierda, lo que implica un doble redondeo. afectará el resultado final
RoI Align calcula la distancia desde el punto objetivo hasta la esquina superior izquierda sin redondear, lo que puede mejorar la precisión del cálculo
El cálculo específico es usar interpolación bilineal para calcular
4. Cálculo de la función de pérdida
Entre ellos, el cálculo de pérdida de rpn y fast_rcnn es el mismo que el de rcnn más rápido, y la función de pérdida de la rama Máscara se calcula de la siguiente manera:
Calcular BCELoss por diferentes categorías.