[Dharma Academy OpenVI] Modelo FasInst de segmentación rápida de instancias CVPR de código abierto

Colección de modelos de equipos, documentos, publicaciones de blog y transmisiones en vivo, haga clic aquí para navegar

1. Tesis y Código

Papel: https://arxiv.org/abs/2303.08594

Modelo y código: https://modelscope.cn/models/damo/cv_resnet50_fast-instance-segmentation_coco/summary

2. Fondo

        La segmentación de instancias tiene como objetivo segmentar todos los objetos de interés en una imagen. Los esquemas tradicionales de segmentación de instancias en dos etapas representados por mask rcnn [1] siguen la idea de detección primero y segmentación después. Aunque simples e intuitivos, esos métodos generan una gran cantidad de propuestas de regiones repetidas, lo que introduce una gran cantidad de cálculos redundantes. . Con el fin de mejorar la eficiencia computacional, han surgido muchos métodos de una sola etapa construidos sobre redes totalmente convolucionales, como SOLO [2], etc. Abandonaron la operación de propuesta de región y lograron la predicción del tipo de objeto y la generación de máscaras en un solo paso de extremo a extremo. Dichos métodos son rápidos en la inferencia y atractivos para el despliegue práctico. Sin embargo, dado que estos esquemas de una sola etapa totalmente basados ​​en la convolución aún emplean una predicción densa, aún evitan pasos pesados ​​​​de procesamiento posterior diseñados a mano, como la supresión no máxima.

        Recientemente, tras el éxito de DETR [3] en la detección de objetos, surgieron métodos de segmentación de instancias de etapa única basados ​​en consultas. Dichos métodos aprovechan un mecanismo de atención general y poderoso combinado con una serie de consultas aprendibles para inferir categorías de objetos de destino y máscaras de segmentación. Por ejemplo, Mask2Former [4] simplifica el flujo de trabajo de la segmentación de imágenes al agregar un decodificador de píxeles y un decodificador de transformador con máscara en la parte superior de la columna vertebral para la segmentación. A diferencia de los métodos anteriores, Mask2Former no requiere componentes artesanales diseñados adicionalmente, como el asignador de objetos de entrenamiento y el posprocesamiento de NMS. Aunque tiene una estructura elegante, Mask2Former tiene sus propios problemas: (1) requiere una gran cantidad de capas de decodificador para decodificar la consulta de destino, ya que su consulta es estática, lo que requiere un proceso prolongado para la mejora iterativa; (2) depende de la pesada The estructura del decodificador de píxeles de , porque las características de su máscara de segmentación de objetos se derivan directamente de la salida del decodificador de píxeles, y estas salidas se utilizan como incrustaciones de características para distinguir diferentes objetos; (3) utiliza una capa de atención cruzada enmascarada que limita el campo receptivo de cada consulta puede hacer que el decodificador del transformador caiga en un proceso de actualización de consultas localmente subóptimo.

        Si bien Mask2Former logra un rendimiento excelente, sus ventajas en la segmentación de instancias rápida y eficiente, que son cruciales para muchas aplicaciones del mundo real, como la conducción autónoma y la robótica, no han sido bien documentadas. De hecho, la eficiencia de los modelos basados ​​en consultas generalmente es insatisfactoria debido a la falta de conocimiento previo y el cálculo costoso. Los puntos de referencia de segmentación de instancias eficientes en tiempo real todavía están dominados por modelos clásicos basados ​​en convolución [5].

2. Método

En este documento, llenamos el vacío que los modelos basados ​​en consultas carecen de velocidad al proponer FastInst. FastInst es un marco conciso y eficiente para la segmentación de instancias en tiempo real basada en consultas. Demostramos que los modelos basados ​​en consultas pueden lograr un rendimiento sobresaliente en las tareas de segmentación de instancias sin dejar de ser rápidos, lo que muestra un gran potencial para el diseño eficiente de algoritmos de segmentación de instancias. Por ejemplo, nuestro modelo basado en consultas más rápido que utiliza una red troncal ResNet-50 logra 35,6 AP a 53,8 FPS (fotogramas por segundo, una sola GPU V100) en el desarrollo de prueba de COCO (consulte la figura anterior); nuestro mejor modelo de compensación puede ejecutar a una velocidad en tiempo real de 32,5 FPS mientras se obtiene un AP de más de 40 (es decir, 40,5), que, hasta donde sabemos, nunca se ha logrado con métodos anteriores con la misma configuración.

Específicamente, FastInst sigue la metaarquitectura de Mask2Former. Para lograr una segmentación eficiente de instancias en tiempo real, FastInst presenta tres módulos clave:

(1) Consulta guiada por activación de instancia. FastInst utiliza incrustaciones de píxeles seleccionadas dinámicamente con alta semántica del decodificador de píxeles como consulta inicial para el decodificador de Transformer. En comparación con las consultas de aprendizaje estáticas, estas consultas dinámicas seleccionadas contienen información valiosa sobre la incrustación de objetos latentes, lo que reduce la carga de actualización iterativa del decodificador Transformer. Específicamente, FastInst primero conecta un encabezado de clasificación auxiliar después de la salida del decodificador de píxeles, que predice la probabilidad de que cada píxel pertenezca a cada categoría, donde es la posición del píxel y es el subíndice de la categoría. Durante la inferencia, primero determine la clase a la que pertenece cada píxel y luego seleccione las características en esas posiciones que son más grandes. Para evitar la selección de características redundantes, aquí presentamos un método de selección de valor máximo local, es decir, primero seleccionamos aquellos puntos que tienen el valor máximo en el canal correspondiente, es decir, aquí está el conjunto de 8 subíndices de vecindad del posición y, a continuación, seleccione los puntos más grandes. En el momento de la inferencia, FastInst emplea la coincidencia húngara para asignar objetivos de activación a cada instancia. Para que cada instancia tenga el punto de activación correcto y no sea activada por otras ubicaciones con semántica similar, FastInst introduce un costo de ubicación al asignar objetivos. La intuición detrás de este costo de ubicación es que solo los píxeles que caen dentro de un objeto tienen motivos para razonar sobre la incrustación de clase y máscara de ese objeto. Al mismo tiempo, el costo de la ubicación también reduce el espacio de coincidencia y acelera la convergencia del entrenamiento del modelo.

(2) Estructura del decodificador de transformador de doble ruta. FastInst adopta una estrategia de actualización de doble ruta en el decodificador Transformer. Como se muestra en el diagrama de estructura anterior, una capa de decodificador de Transformer contiene una capa de actualización de características de píxeles y una capa de actualización de consulta. Todo el proceso es como un algoritmo de agrupamiento EM. Paso E: Actualizar las características del píxel según el centro al que pertenece (consulta); Paso M: Actualizar el centro del clúster (consulta). En comparación con la estrategia de actualización de ruta única tradicional, la estrategia de actualización de ruta doble optimiza simultáneamente las funciones y consultas de píxeles, reduce la dependencia de decodificadores de píxeles pesados ​​y obtiene incrustaciones de funciones más detalladas.

(3) Aprendizaje del decodificador de transformador guiado por máscara GT. En Mask2Former, los autores demuestran que el uso de una capa de atención cruzada con máscaras predictivas en el decodificador Transformer mejora el rendimiento de la segmentación del modelo. Si bien esta capa de atención cruzada con máscaras predictivas introduce un conocimiento previo escaso, lo que acelera la convergencia del modelo y mejora el rendimiento, limita el campo receptivo de cada consulta, lo que puede provocar que el decodificador de Transformer caiga en un proceso de actualización de consulta local subóptimo. Para aliviar este problema, FastInst presenta el aprendizaje guiado por máscara GT. Específicamente, FastInst usa la máscara GT que coincide con cada consulta de la última capa del decodificador para reemplazar la máscara predicha en la capa de atención cruzada con la máscara predicha de la capa anterior utilizada en cada código anterior de la capa del decodificador. Para las consultas que no coinciden con ninguna instancia en la última capa, se usa la atención cruzada estándar sin reemplazo. FastInst luego propaga hacia adelante cada capa de decodificador de transformador nuevamente utilizando la capa de atención cruzada reemplazada y la salida de cada capa de decodificador de transformador como entrada. La nueva salida se supervisa siguiendo el mismo emparejamiento fijo que la última capa. Esta coincidencia fija garantiza la consistencia de las predicciones de salida de cada capa Transformador-decodificador. Al mismo tiempo, a través de este aprendizaje guiado, permitimos que cada consulta vea la región completa de su objeto de predicción de destino durante el entrenamiento, lo que ayuda al modelo a aprender regiones de atención cruzada más razonables con máscaras.

Con estos módulos, FastInst logra un rendimiento rápido y bueno. En el punto de referencia de COCO, FastInst supera a la mayoría de los algoritmos de segmentación de instancias en tiempo real anteriores con la misma configuración experimental.

3. Resultados experimentales

1. Experimento de ablación

(1) Consulta basada en la guía de activación de instancias

(2) Estructura del decodificador de transformador de doble ruta

(3) Aprendizaje del decodificador de transformador guiado por máscara GT

2. Comparación SOTA

3. Visualización de efectos

4. Ampliar el experimento

FastInst también es adecuado para tareas generales de segmentación de imágenes, incluida la segmentación semántica y la segmentación panorámica.

4. Referencias

[1] Kaiming He, Georgia Gkioxari, Piotr Dollar y Ross Gir- ´ shick. Máscara R-CNN. En ICCV, 2017.

[2] Xinlong Wang, Tao Kong, Chunhua Shen, Yuning Jiang y Lei Li. SOLO: Segmentación de objetos por ubicación. En ECCV, 2020.

[3] Nicolás Carion, Francisco Massa, Gabriel Synnaeve, Nicolás Usunier, Alexander Kirillov y Sergey Zagoruyko. Detección de objetos de extremo a extremo con transformadores. En ECCV, 2020.

[4] Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov y Rohit Girdhar. Transformador de máscara de atención enmascarada para la segmentación universal de imágenes. En CVPR, 2022.

[5] Tianheng Cheng, Xinggang Wang, Shaoyu Chen, Wenqiang Zhang, Qian Zhang, Chang Huang, Zhaoxiang Zhang y Wenyu Liu. Activación de instancias dispersas para la segmentación de instancias en tiempo real. En CVPR, 2022.

5. Otras fuentes abiertas

        Además, me gustaría presentarles los modelos gratuitos y de código abierto en el dominio CV. Le invitamos a experimentarlos y descargarlos (puede experimentarlos en la mayoría de los teléfonos móviles):

Comunidad ModelScope https://modelscope.cn/models/damo/cv_ddsar_face-detection_iclr23-damofd/summary

Comunidad ModelScope https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

Comunidad mágica de ModelScope https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

Comunidad mágica ModelScope https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

Comunidad mágica ModelScope https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

Comunidad mágica ModelScope https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

Comunidad mágica de ModelScope https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

Comunidad mágica ModelScope https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

Comunidad mágica ModelScope https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

Comunidad mágica ModelScope https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

Comunidad ModelScope https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

Comunidad ModelScope https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

Comunidad ModelScope https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

Supongo que te gusta

Origin blog.csdn.net/sunbaigui/article/details/131571042
Recomendado
Clasificación