Registros de aprendizaje de la serie de detección de objetivos de entrada de base cero (1): conocimientos previos

Baidu Flying Paddle Zero-Basic Practice Aprendizaje profundo Serie de detección de objetivos Notas de estudio Tarea de
detección de objetivos Propósito: Categoría + Ubicación del objetivo
Los problemas principales enfrentados:
1. Cómo generar regiones candidatas 2. Cómo extraer características de la imagen
inserte la descripción de la imagen aquí

Proceso de desarrollo de detección de objetivos:

Actualmente existen principalmente dos direcciones:

(1): Sin anclaje

Uno es un método basado en punto central y el otro es un método basado en cuadro delimitador.
1. El método basado en el punto central generalmente considera cada píxel como la posibilidad del punto central del objetivo y predice el tamaño y la categoría del objetivo sobre esta base.
2. El método basado en cuadros delimitadores predice el cuadro delimitador del objeto directamente desde el mapa de características sin la necesidad de un cuadro de anclaje predefinido.

(2): basado en anclaje

Utilice el cuadro de anclaje predefinido (Cuadro de anclaje) o el cuadro anterior (Cuadro anterior) al predecir la posición y el tamaño del objetivo.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Conceptos básicos de detección de objetos:

(1) cuadro delimitador bbox

El bbox se utiliza para identificar el objeto de destino en la imagen y generalmente se representa junto con la categoría del objetivo. El modelo predecirá la categoría y posición del objetivo de acuerdo con la imagen de entrada y el bbox, y generará los resultados de detección correspondientes.
inserte la descripción de la imagen aquí

(2) Caja de anclaje AnchorBox

Anchor Box (Anchor Box), también conocido como Prior Box (Prior Box), es una técnica utilizada en la detección de objetivos para generar cuadros candidatos. Los cuadros de anclaje son un conjunto de cuadros predefinidos, cada uno con un tamaño y relación de aspecto diferentes, que se utilizan para intentar hacer coincidir diferentes objetos en la imagen de entrada. Los cuadros de anclaje generalmente se generan en cada ubicación de la imagen de entrada para intentar capturar objetos de diferentes escalas y relaciones de aspecto.
Durante el proceso de entrenamiento de detección de objetos, el modelo se entrena de acuerdo con los cuadros de anclaje predefinidos y la ubicación y el tamaño del objeto real para aprender cómo predecir la categoría y ubicación del objeto. Durante la inferencia, el modelo determina la ubicación y el tamaño del objeto en función de los resultados de la predicción y las ubicaciones y tamaños de los cuadros de anclaje.
inserte la descripción de la imagen aquí

(3) Intersección y proporción de unión pagaré

Intersección sobre Unión (IoU) es un indicador utilizado para evaluar el rendimiento de los algoritmos de detección de objetos. En la detección de objetos, IoU se usa a menudo para medir cuánto se superpone el cuadro delimitador (bbox) predicho por el modelo con el cuadro delimitador del objeto real.

La fórmula de cálculo de IoU es: IoU = área de intersección / área de unión .
Entre ellos, el área de intersección se refiere al área de superposición entre el bbox predicho por el modelo y el bbox objetivo real, y el área de unión se refiere al área de los dos bbox más su área de superposición.
Por lo general, el umbral de IoU se establece de acuerdo con tareas y requisitos específicos. Por ejemplo, en la detección de objetivos, el umbral de IoU generalmente se establece en 0,5 o 0,7 para juzgar si el modelo detecta con éxito el objetivo. Además de evaluar el rendimiento del modelo, IoU también se puede utilizar para la optimización y el ajuste de bbox en algunos algoritmos de detección de objetivos, por ejemplo, el algoritmo de supresión no máxima (NMS) se basa en IoU.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

(4) NMS de supresión no máxima

Si hay varios cuadros de predicción que están relativamente cerca en su posición, solo se selecciona el cuadro de predicción con la puntuación más alta y los cuadros de predicción restantes se descartan.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/m0_63495706/article/details/130049529
Recomendado
Clasificación