[Red neuronal de autoatención] Red de detección de objetivos DETR

I. Resumen

        En comparación con la detección de objetos tradicional, DETR es una red pura de extremo a extremo . Ya no necesita NMS (supresión no máxima, utilizada para eliminar cuadros de predicción redundantes) y genera anclas .

        DETR propone una nueva función objetivo (coincidencia de gráficos bipartitos), que puede obligar a la red a generar un valor de predicción único (sin cuadro de predicción redundante).

2. Estructura de la red

         El proceso directo de DETR se muestra en la figura anterior: Use una CNN para extraer las características de la imagen; Aplane la característica; Envíe la característica aplanada a la unidad codificadora-decodificadora del Transformador; El decodificador emite la información del marco de predicción (fuera La información del marco es un hiperparámetro, el texto original es 100) Haga coincidir la verdad básica con el resultado de la predicción mediante el uso de coincidencia de gráficos bipartitos, y la pérdida se calculará aún más para el marco que se empareja con éxito (el marco que no coincida con éxito se marcará como ningún objeto <clase de fondo>)

        1. Función objetivo basada en conjuntos

                La salida de DETR es un conjunto fijo (número fijo). Para encontrar el cuadro de predicción correcto en estos conjuntos, DETR adopta un método de coincidencia de gráficos bipartito para resolver este problema. El método específico es: construir n cajas de predicción y x Ground Turns en una matriz de costos (matriz de costos), y encontrar el arreglo con el menor costo a través del algoritmo.

                        

                         El contenido de la matriz es la función de pérdida (pérdida de clasificación y pérdida de caja), y la fórmula se puede escribir como:

                 El significado de esta fórmula es calcular dos pérdidas (pérdida de categoría y pérdida de marco) sobre la base de la coincidencia de gráficos bipartitos, donde para la primera pérdida, dado que debe ser consistente con el rango de valores de la segunda pérdida, su logaritmo se elimina y Los experimentos muestran que no afectará los resultados; para la segunda pérdida, dado que L1-Loss es sensible a objetos grandes, se usa la pérdida generalizada de Iou para calcular (independientemente del tamaño del objeto).

        2. Marco general de la red

                ①El tamaño de entrada de imagen predeterminado es 1066x800x3, y la función se extrae a través de la red convolucional para obtener una salida de 2048x25x34; luego se realiza una convolución 1x1 para el ajuste del canal (reducción de la dimensión) para obtener 256x25x34.

                Aplane la característica (850*256) y codifique su posición de superposición (256x25x34)

                ③Ingrese la secuencia en el codificador para calcular la autoatención

                ④Ingrese el resultado en el decodificador para decodificar la salida; aquí introduzca una consulta de objeto (una que se pueda aprender con una dimensión de 100*256), y cada decodificador realizará primero una operación de autoatención en la consulta de objeto para eliminar marcos redundantes (la primera el decodificador no se puede hacer)

                  Ingrese las características en el cabezal de detección (FFN-MLP) para la predicción.

3. Código

         La estructura más simple de DETR42 del texto original

Supongo que te gusta

Origin blog.csdn.net/weixin_37878740/article/details/129375104
Recomendado
Clasificación