La diferencia entre clasificación, detección de objetivos, segmentación semántica y segmentación de instancias

Hay muchas tareas en la visión artificial, incluida la clasificación de imágenes, la detección de objetivos, la segmentación semántica, la segmentación de instancias y la segmentación panorámica. ¿Cuál es la diferencia entre ellas?

1. Clasificación de imágenes

clasificación de imágenes(a la izquierda en la figura a continuación) es juzgar la clasificación de la imagen. Por ejemplo, en la clasificación de aprendizaje, hay cuatro tipos de conjuntos de datos: persona, oveja, perro y gato. La clasificación de imágenes requiere una imagen determinada. ¿Qué categorías se incluyen? en la imagen de salida, por ejemplo, el ejemplo de la siguiente figura contiene tres tipos: persona, oveja y perro.

inserte la descripción de la imagen aquí

2. Detección de objetos

Detección de objetivos(Arriba a la derecha) En pocas palabras, ¿qué hay en la imagen? ¿Dónde están? (enmarcarlos con un rectángulo)

Los algoritmos de detección de objetivos actualmente más utilizados son los algoritmos de detección de objetivos basados en Faster R-CNN y YOLO

3. Segmentación semántica

La segmentación de objetivos en el sentido habitual se refiere a la segmentación semántica

segmentación semántica(A la izquierda en la imagen de abajo) Es necesario distinguir cada píxel en la imagen, no solo el marco del rectángulo. Pero no es necesario segmentar por separado diferentes instancias del mismo objeto. En el lado izquierdo de la imagen de abajo, está marcado como personas, ovejas, perros y pasto. En lugar de oveja 1, oveja 2, oveja 3, oveja 4, oveja 5 y así sucesivamente.
inserte la descripción de la imagen aquí

4. Segmentación de instancias

segmentación de instancias(Arriba a la derecha) es en realidad **Detección de Objetos y Segmentación Semántica**Conjunto. En comparación con el cuadro delimitador de la detección de objetivos, la segmentación de instancias puede ser precisa hasta el borde del objeto; en comparación con la segmentación semántica, la segmentación de instancias necesita marcar diferentes individuos del mismo objeto en el mapa (oveja 1, oveja 2, oveja 3. ..)

El algoritmo de segmentación de instancias actualmente más utilizado es Mask R-CNN .

Mask R-CNN realiza una segmentación a nivel de píxel al agregar una rama a Faster R-CNN que genera una máscara binaria que indica si un píxel dado es parte de un objeto de destino: esta rama se basa en características de redes neuronales convolucionales Red completamente convolucional asignada. Tomando como entrada un mapa de características de red neuronal convolucional dado, la salida es una matriz en la que todas las posiciones donde el píxel pertenece al objeto están representadas por 1, y otras posiciones están representadas por 0, que es la máscara binaria.

Una vez que se generan estas máscaras, Mask R-CNN combina RoIAlign con cuadros de clasificación y delimitación de Faster R-CNN para una segmentación precisa:

5. Segmentación panorámica

segmentación panorámicaEs una combinación de segmentación semántica y segmentación de instancias . La diferencia con la segmentación de instancias es que la segmentación de instancias solo detecta objetos en la imagen y segmenta los objetos detectados, mientras que la segmentación panorámica detecta y segmenta todos los objetos en la imagen, incluido el fondo.