Análisis del algoritmo YOLOv1 para la detección de objetivos.

Estructura de red

卷积层+池化层+全连接层
Insertar descripción de la imagen aquí

Introduzca $448 *$
Salidade imagen de tamaño $448$ $7 * 7 *$ Tensor de $30$

El tensor de 30 dimensiones incluye las probabilidades de 20 objetos, la confianza de 2 cuadros delimitadores y sus posiciones (la información de posición de un cuadro delimitador requiere cuatro valores y dos cuadros delimitadores requieren un total de 8 valores)

La probabilidad de 20 objetos es la probabilidad condicional. Si hay un objeto de detección en la cuadrícula, entonces la probabilidad de que el objeto de detección sea de categoría A: $p(P_A|exist\_objects)$

Confianza de 2 cuadros delimitadores, donde confianza = p (exist_objects) * valor de pagaré entre el cuadro delimitador previsto y el cuadro delimitador real del objeto

La confianza de los dos cuadros delimitadores se multiplica por las probabilidades de las 20 categorías respectivamente, y se puede obtener la probabilidad de cada categoría en los dos cuadros delimitadores.

Análisis clave

contenido relacionado con el cuadro delimitador

Cada cuadrícula proporciona información de dos cuadros delimitadores, pero un objeto solo requiere un cuadro delimitador. Para ello, la selección se realiza a través de ciertos criterios.
El vector de 30 dimensiones de salida contiene la confianza de los dos cuadros delimitadores, que refleja la intersección y comparación del cuadro predicho y el pagaré del cuadro real. Luego, las dos cajas IOU se cruzan y comparan, y quien sea más grande será responsable de predecir un objeto, y $p (exist\_objects)$ es 1, y $(exist_objects) p(exist\_objects)$ 0 $.$ Luego, de acuerdo con la fórmula, el nivel de confianza es en realidad la intersección del pagaré y la proporción de unión.

celda de cuadrícula 与 cuadro delimitador

Divide la imagen en $7 * 7$ cuadrícula (celda de cuadrícula), cada celda de la cuadrícula genera dos cuadros delimitadores de cuadros de predicción, y los puntos centrales de los cuadros de predicción caen dentro de la celda de la cuadrícula. Cada celda de la cuadrícula solo puede predecir un objeto.

función de pérdida

Insertar descripción de la imagen aquí

Análisis de fórmulas, donde $1_i^{obj}$ Representar cuadrícula $Hay un objeto de detección para i$ , $1_{ij}^{obj}$ Representar cuadrícula $soy$ jj $Hay objetos de detección en j$ cuadros delimitadores, $1_ {ij}^{nobj}$ Representar cuadrícula $soy$ jj $j$ los cuadros delimitadores no tienen objetos de detección

La primera línea representa el error entre el punto central del borde y el error entre el cuadro delimitador previsto y el cuadro real en la celda de la cuadrícula.

La segunda línea representa el error del ancho y alto del cuadro predicho en relación con el cuadro de verdad del terreno. La prescripción tiene como objetivo reducir los problemas de sensibilidad causados por diferentes tamaños.

La tercera línea representa el error de confianza, es decir, hay un objeto en el cuadro delimitador, $\bar{C_i}$ Cuanto más alto mejor

La cuarta línea también representa el error de confianza, es decir, no hay ningún objeto dentro del cuadro delimitador, $\bar{C_i}$ Cuanto más bajo mejor

La última fila representa el error de clasificación del objeto.