Séptima paleta vegetariana: el concepto básico de detección de objetivos

1. ¿Qué es la detección de objetivos? 

En los artículos anteriores, aprendimos cómo usar redes neuronales convolucionales para clasificar imágenes, por ejemplo, el reconocimiento de dígitos escritos a mano se usa para reconocer diez números del 0 al 9. A diferencia de la clasificación de imágenes, que se ocupa de la identificación de un solo objeto, la detección de objetivos reconoce no solo un objeto, sino también múltiples objetos, no solo para determinar la clasificación del objeto, sino también para determinar la ubicación del objeto. Por ejemplo, la siguiente imagen:

 La detección de objetivos no solo nos dice que hay cachorros y gatos en esta imagen, sino que también dice que el cachorro está en el cuadro rojo de la izquierda y el gatito está en el cuadro rojo de la derecha. Es decir, el resultado de salida de la detección de objetivos es [clasificación de objetivos + coordenadas de objetivos]

2. Conceptos involucrados en la detección de objetivos

1. Cuadro delimitador

La tarea de detección necesita predecir la categoría y la ubicación del objeto al mismo tiempo, por lo que es necesario introducir algunos conceptos relacionados con la ubicación. La ubicación de un objeto generalmente se representa mediante un cuadro delimitador (bbox), que es un cuadro rectangular que solo puede contener el objeto. Al igual que los cuadros rojos alrededor del cachorro y el gatito en la imagen de arriba, son dos cuadros delimitadores.

2. El método de expresar la posición del cuadro delimitador

  • xyxy, es decir (x1, y1, x2, y2) donde (x1, y1) son las coordenadas de la esquina superior izquierda del rectángulo y (x2, y2) son las coordenadas de la esquina inferior derecha del rectángulo.
  • xywh, es decir (x, y, w, h) donde (x, y) son las coordenadas del punto central del rectángulo, w es el ancho del rectángulo y h es la altura del rectángulo.

3. Marco de predicción

Para completar una tarea de detección de objetivos, esperamos que el modelo pueda generar algunos cuadros delimitadores previstos en función de la imagen de entrada, así como la categoría de objetos contenidos en el cuadro delimitador o la probabilidad de pertenecer a una determinada categoría, como este formato. : [L ,P,x1,y1,x2,y2], donde L es la etiqueta de la categoría y P es la probabilidad de que el objeto pertenezca a esa categoría. Una imagen de entrada puede generar múltiples cuadros de predicción.

4. Marco de anclaje

El cuadro de anclaje es diferente del cuadro delimitador de objetos, que es un tipo de cuadro generado por personas de acuerdo con ciertas reglas. Primero establezca el tamaño y la forma del marco de anclaje y luego dibuje un marco rectangular centrado en un punto determinado de la imagen. En la tarea de detección de objetivos, se suele generar una serie de cuadros de anclaje en la imagen de acuerdo con ciertas reglas, y estos cuadros de anclaje se consideran posibles regiones candidatas. El modelo predice si estas áreas candidatas contienen objetos y, si contienen objetos de destino, es necesario predecir aún más la categoría a la que pertenece el objeto. Más importante aún, dado que la posición del marco de anclaje es fija, es poco probable que coincida con el cuadro delimitador del objeto, por lo que debe ajustarse con precisión sobre la base del marco de anclaje para formar un marco de predicción que pueda describir con precisión la posición del objeto, el modelo La magnitud del ajuste fino debe predecirse. Diferentes modelos a menudo tienen diferentes formas de generar cajas de anclaje.

5. Proporción de fusión cruzada

En las tareas de detección se utiliza como medida la Intersección de Unión (IoU). Este concepto proviene del conjunto en matemáticas y se utiliza para describir la relación entre dos conjuntos A y B. Es igual al número de elementos contenidos en la intersección de los dos conjuntos, dividido por los elementos contenidos en su unión. El cálculo específico fórmula es la siguiente:

Usamos la razón de intersección sobre unión para describir el grado de coincidencia entre dos cajas. Dos cajas se pueden considerar como una colección de dos píxeles, y su relación de intersección es igual al área de la parte superpuesta de las dos cajas dividida por su área combinada, como se muestra en la siguiente figura:

Como dijimos en la clasificación de imágenes, nuestra red neuronal necesita establecer una función de pérdida, por lo que la relación de intersección y unión es una buena función de pérdida para medir la calidad de la predicción.

 

Supongo que te gusta

Origin blog.csdn.net/duzm200542901104/article/details/128296289
Recomendado
Clasificación