[Visión por computadora | Detección de objetivos] Información seca: recopilación de introducción a algoritmos comunes para la detección de objetivos (3)

Treinta y uno, FoveaBox

FoveaBox es un marco sin anclajes para la detección de objetos. En lugar de utilizar anclajes predefinidos para enumerar posibles posiciones, escalas y relaciones de aspecto para buscar objetos, FoveaBox aprende directamente la probabilidad de existencia del objeto y las coordenadas del cuadro delimitador, sin necesidad de referencias de anclaje. Esto se logra: (a) prediciendo un mapa semántico sensible a la clase para la probabilidad de la presencia de un objeto, y (b) generando cuadros delimitadores independientes de la clase para cada ubicación que pueda contener un objeto. La escala del cuadro de destino está asociada naturalmente con la representación piramidal de características de cada imagen de entrada.

Es una red única y unificada que consta de una red troncal y dos subredes de tareas específicas. La red troncal es responsable de calcular el mapa de características convolucionales en toda la imagen de entrada y es una red convolucional lista para usar. La primera subred realiza una clasificación por píxel en la salida de la red troncal; la segunda subred realiza una predicción de cuadros delimitadores en las ubicaciones correspondientes.

Insertar descripción de la imagen aquí

Treinta y dos, MobileDet

MobileDet es un modelo de detección de objetos desarrollado para aceleradores móviles. MobileDets hace un uso extensivo de convoluciones regulares en EdgeTPU y DSP, especialmente en las primeras etapas de la red, donde las convoluciones profundas tienden a ser menos eficientes. Esto ayuda a mejorar la relación entre latencia y precisión para la detección de objetos en aceleradores, siempre que estén ubicados estratégicamente en la red mediante una búsqueda de arquitectura neuronal. Al combinar convoluciones convencionales en el espacio de búsqueda y optimizar directamente la arquitectura de red para la detección de objetos, se obtienen una serie de modelos eficientes de detección de objetos.

Insertar descripción de la imagen aquí

Treinta y tres, YOLOP

YOLOP es una red de percepción de conducción panorámica que maneja la detección de objetos de tráfico, la segmentación del área transitable y la detección de carriles simultáneamente. Consiste en un codificador para extracción de características y tres decodificadores para manejar tareas específicas. Puede considerarse una versión liviana del modelo HydraNet de automóvil autónomo de Tesla.

Utilice una CNN liviana de Scaled-yolov4 como codificador para extraer características de las imágenes. Estos mapas de características luego se envían a tres decodificadores para completar sus respectivas tareas. El decodificador de detección se basa en la red de detección de una sola etapa YOLOv4 de mejor rendimiento actualmente, principalmente por dos razones: (1) La red de detección de una sola etapa es más rápida que la red de detección de dos etapas. (2) El mecanismo de predicción basado en cuadrículas de los detectores de una sola etapa es más relevante para las otras dos tareas de segmentación semántica, mientras que la segmentación de instancias generalmente se combina con detectores basados ​​en regiones como Mask R-CNN. Los mapas de características generados por el codificador fusionan características semánticas en diferentes niveles y escalas, y nuestra rama de segmentación puede usar estos mapas de características para completar la predicción semántica píxel por píxel.

Insertar descripción de la imagen aquí

三十四、Tubería de detección de objetos de páginas web basada en atención visual contextual (CoVA)

Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí

Treinta y cinco, localización de límites con reconocimiento lateral

La localización de límites con reconocimiento lateral (SABL) es un método para la localización precisa en la detección de objetos, donde cada lado del cuadro delimitador se localiza por separado mediante ramas de red dedicadas. Empíricamente, los autores observan que cuando anotan manualmente el cuadro delimitador de un objeto, a menudo es mucho más fácil alinear cada lado del cuadro con el límite del objeto que mover todo el cuadro al cambiar el tamaño. Inspirándose en esta observación, en SABL, cada lado del cuadro delimitador se coloca por separado según el contexto circundante.

Como se muestra en la figura, el autor diseñó un esquema de agrupación para mejorar la precisión del posicionamiento. Para cada lado del cuadro delimitador, este esquema divide el espacio de destino en varios depósitos y luego determina el cuadro delimitador en dos pasos. Específicamente, primero busca el segmento correcto, es decir, el segmento donde se encuentra el límite. Utilice la línea central del depósito seleccionado como estimación aproximada y luego realice una regresión fina prediciendo el desplazamiento. Este esquema permite un posicionamiento muy preciso incluso en presencia de desplazamientos con grandes variaciones. Además, para preservar los cuadros delimitadores ubicados con precisión durante la supresión no máxima, los autores también sugieren ajustar la puntuación de clasificación en función de la confianza de agrupación, mejorando así aún más el rendimiento.

Insertar descripción de la imagen aquí

Treinta y seis, R-CNN dinámico

Dynamic R-CNN es un método de detección de objetos que ajusta automáticamente el criterio de asignación de etiquetas (umbral de IoU) y la forma de la función de pérdida de regresión (parámetros de Smooth L1 Loss) en función de las estadísticas de las propuestas durante el entrenamiento. La motivación es que en los detectores de objetos de dos etapas anteriores, existe un problema de inconsistencia entre la configuración de la red fija y el proceso de entrenamiento dinámico. Por ejemplo, las estrategias de asignación de etiquetas fijas y las funciones de pérdida de regresión no pueden adaptarse a los cambios en la distribución de propuestas, lo que no favorece el entrenamiento de detectores de alta calidad.

Consta de dos componentes: asignación dinámica de etiquetas y pérdida dinámica de suavizado L1, diseñados para ramas de clasificación y regresión respectivamente.

Para la asignación dinámica de etiquetas, esperamos que nuestro modelo pueda distinguir propuestas de IoU altas, por lo que ajustamos gradualmente el umbral de IoU de muestras positivas/negativas de acuerdo con la distribución de propuestas durante el entrenamiento. Específicamente, establecemos el umbral como un cierto porcentaje del pagaré de la propuesta, ya que puede reflejar la calidad de la distribución general.

Para Dynamic Smooth L1 Loss, esperamos cambiar la forma de la función de pérdida de regresión para ajustarse adaptativamente a los cambios de distribución del error y garantizar la contribución de muestras de alta calidad al entrenamiento. Esto se logra ajustando la distribución del error en función de la función de pérdida de regresión en Smooth L1 Loss, donde en realidad se controla el tamaño del pequeño gradiente de error.

Insertar descripción de la imagen aquí

Treinta y siete, DAFNe

DAFNe es un modelo denso de profundidad sin anclajes de una sola etapa para la detección de objetos orientados. Es una red neuronal profunda que realiza predicciones sobre una densa cuadrícula de imágenes de entrada, con un diseño arquitectónico más simple y una optimización más sencilla que una red de dos etapas. Además, reduce la complejidad de la predicción al evitar el uso de anclajes de cuadro delimitador. Esto permite un ajuste más preciso a los objetos orientados y, por lo tanto, una mejor separación de los cuadros delimitadores, especialmente en el caso de una distribución densa de objetos. Además, introduce una generalización de la función central basada en la orientación a cuadriláteros arbitrarios, teniendo en cuenta la orientación de los objetos y minimizando con precisión las predicciones de baja calidad en consecuencia.

Insertar descripción de la imagen aquí

Treinta y ocho, RPDet

RPDet (o RepPoints Detector) es un modelo de detección de objetos de dos etapas sin anclajes basado en convolución deformable. Los puntos representativos sirven como representación básica de objetos para todo el sistema de detección. A partir del punto central, el primer conjunto de RepPoints se obtiene mediante el desplazamiento de regresión en el punto central. El aprendizaje de estos RepPoints está impulsado por dos objetivos: 1) inducir una pérdida de distancia entre los puntos superior izquierdo e inferior derecho entre pseudocuadros y cuadros delimitadores de verdad fundamental; 2) una pérdida de reconocimiento de objetos en etapas posteriores.

Insertar descripción de la imagen aquí

Treinta y nueve, RetinaNet-RS

RetinaNet-RS es un modelo de detección de objetos generado mediante un método de escalado del modelo basado en el cambio de la resolución de entrada y la profundidad de la red troncal de ResNet. Para RetinaNet, ampliamos la resolución de entrada de 512 a 768 y la profundidad de la red troncal ResNet de 50 a 152. Dado que RetinaNet realiza una detección densa de objetos en una sola etapa, los autores descubrieron que ampliar la resolución de entrada da como resultado mapas de características de gran resolución, lo que requiere el procesamiento de más puntos de anclaje. Esto da como resultado encabezados de predicción densos de mayor capacidad y NMS costosos. Para RetinaNet, el escalado se detiene en la resolución de entrada de 768 × 768.

Insertar descripción de la imagen aquí

Cuarenta, NAS-FCOS

NAS-FCOS consta de dos subredes, una es la FPN f y un conjunto de cabezales de predicción h con una estructura compartida. Una diferencia significativa con respecto a otros detectores de un nivel basados ​​​​en FPN es que nuestras cabezas tienen pesos parcialmente compartidos. Sólo las últimas capas del cabezal de predicción (marcadas en amarillo) están asociadas con sus pesos. El algoritmo de búsqueda determina automáticamente el número de capas compartidas. Tenga en cuenta que tanto FPN como head están en nuestro espacio de búsqueda real y tienen más capas que las que se muestran en esta figura.

Insertar descripción de la imagen aquí

Cuarenta y uno, ExtremeNet

xtremeNet es un marco de detección de objetos ascendente que detecta cuatro puntos extremos de objetos (arriba, izquierda, abajo, derecha). Utiliza un marco de estimación de puntos clave para encontrar puntos extremos prediciendo cuatro mapas de calor multimodales para cada categoría de objeto. Además, utiliza un mapa de calor para cada categoría para predecir el centro del objeto como el promedio de dos bordes del cuadro delimitador en las dimensiones xey. Utilizamos un enfoque puramente basado en la geometría para agrupar puntos extremos en objetos. Agrupamos cuatro puntos extremos, uno en cada mapa, si y solo si su puntuación predicha del centro geométrico en el mapa de calor central es mayor que un umbral predefinido, enumeramos todas las combinaciones de predicciones de puntos extremos y seleccionamos válidas.

Insertar descripción de la imagen aquí

Cuarenta y dos, M2Det

M2Det es un modelo de detección de objetos de una sola etapa que utiliza la red piramidal de funciones de múltiples niveles (MLFPN) para extraer características de la imagen de entrada y luego genera cuadros delimitadores densos y puntuaciones de categorías basadas en las características aprendidas, similar a SSD, y luego no. -Suprimir al máximo las operaciones (NMS) para producir resultados finales.

Insertar descripción de la imagen aquí

Cuarenta y tres, U2-Net

U2-Net es una arquitectura de estructura en U anidada de dos niveles diseñada para la detección de objetos salientes (SOD). Esta arquitectura permite que la red sea más profunda y alcance una alta resolución sin aumentar significativamente la memoria y los costos computacionales. Esto se logra a través de una estructura anidada en forma de U: en el nivel inferior, se utiliza un novedoso módulo de bloque residual en forma de U (RSU), que es capaz de extraer características multiescala dentro de la etapa sin reducir la resolución del mapa de características; en En el nivel superior, hay una estructura tipo A U-Net donde cada etapa está poblada por bloques RSU.

Insertar descripción de la imagen aquí

Cuarenta y cuatro, RFB Net

RFB Net es un detector de objetos de una sola etapa que utiliza bloques de campo receptivos. Utiliza una red troncal VGG16 y, por lo demás, es muy similar a la arquitectura SSD.

Insertar descripción de la imagen aquí

Cuarenta y cinco, PP-YOLOv2

PP-YOLOv2 es un detector de objetos ampliado sobre la base de PP-YOLO y ha realizado muchas mejoras:

FPN consta de una red de agregación de rutas para formar rutas ascendentes.
Utilice la función de activación de Mish.
El tamaño de entrada se amplía.
Las ramas compatibles con IoU se calculan utilizando el formato de etiqueta suave.

Insertar descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/wzk4869/article/details/132863435
Recomendado
Clasificación