[Red neuronal] Red de segmentación semántica U2Net

I. Resumen

        U2Net es una red diseñada para la tarea SOD (tarea SOD: segmentar el objetivo/área más atractiva de la imagen; es decir, solo hay dos partes, el primer plano y el fondo, que es un problema de dos categorías)

2. Estructura de la red

        1. Red de extracción de características 

                 En la etapa del codificador, cada bloque se muestreará 2 veces (maxpool); en la etapa del decodificador, se muestreará 2 veces antes de cada bloque (bilineal).

                El módulo utilizado por EN_1 y DE_1 es RSU-7 (reducción de muestreo 5 veces, aumento de muestreo 5 veces, la relación de compresión total es 32), la estructura se muestra en la siguiente figura.

                 EN_2 y DE_2 usan RSU-6, que tiene un sobremuestreo menos y un submuestreo menos en comparación con RSU-7, y la relación de compresión total se vuelve 16 veces; EN_3 y DE_3 usan RSU-5, (menor que RSU-6 2x relación de compresión); EN_4 y DE_4 usan RSU-4 (2 veces menos relación de compresión que RSU-5)

                Sin embargo, EN_5, EN_6 y DE_5 usan la estructura RSU-4F (como se muestra en la figura a continuación).En comparación con RSU-4, esta estructura no tiene una estructura de reducción de muestreo. La razón para adoptar esta estructura es que después de varias veces de reducción de resolución, el tamaño del mapa de características ya es muy pequeño. Si vuelve a reducir la muestra, se perderá parte de la información.

         2. Red de fusión de características

                Tome los mapas de características de salida de DE_1, DE_2, DE_3, DE_4, DE_5 y EN_6 respectivamente, y realice una convolución 3x3 respectivamente (kernel=1, el número de canales después de la convolución es 1);

                Luego restaure el mapa de características al tamaño del mapa de entrada a través de la interpolación bilineal;

                Finalmente, los 6 mapas de características están cosidos concatenados. El mapa de características empalmado se somete a una función de activación sigmoidea del kernel de convolución 1x1 para obtener la predicción final.

3. Parámetros de configuración de red

        La superior es la red estándar y la inferior es la red ligera. Los parámetros correspondientes se muestran en la siguiente figura.

 4. Función de pérdida

        L=\sum w^{(m)}_{lado}l^{(m)}_{lado}+w_{fusible}l_{fusible}

        La función de pérdida se puede dividir en dos partes: w^{(m)}_{lado}l^{(m)}_{lado}representa los 6 mapas de características y la pérdida de cálculo Ground Turth etiquetada, yoque es la pérdida de entropía cruzada binaria . wRepresenta el peso de cada pérdida, w_{fusible}l_{fusible}es la pérdida entre el resultado final y Ground Turth. Todos los pesos predeterminados a 1.

5. Indicadores de evaluación

        1.F-medida

                F_\beta=\frac{(1+\beta^2)\times Precision\times Recall}{\beta^2\times Precision+Recall}

                        F_\betaEl rango de valores es 0 ~ 1, cuanto mayor sea el valor, mejor será el efecto

        2.MAE

                 MAE=\frac{1}{H\veces W}\sum\sum |P(r,c)-G(r,c)|

Supongo que te gusta

Origin blog.csdn.net/weixin_37878740/article/details/129395740
Recomendado
Clasificación