Análisis del algoritmo YOLOv1 para la detección de objetivos.

Estructura de red

卷积层+池化层+全连接层
Insertar descripción de la imagen aquí

Introduzca 448 ∗ 448 448*448448
Salidade imagen de tamaño 448 7 ∗ 7 ∗ 30 7*7*3077Tensor de 30

El tensor de 30 dimensiones incluye las probabilidades de 20 objetos, la confianza de 2 cuadros delimitadores y sus posiciones (la información de posición de un cuadro delimitador requiere cuatro valores y dos cuadros delimitadores requieren un total de 8 valores)

La probabilidad de 20 objetos es la probabilidad condicional. Si hay un objeto de detección en la cuadrícula, entonces la probabilidad de que el objeto de detección sea de categoría A: p (PA ∣ existe _ objetos) p(P_A|exist\_objects)pag ( pagune x i s t _ o bj ec t s )

Confianza de 2 cuadros delimitadores, donde confianza = p (exist_objects) * valor de pagaré entre el cuadro delimitador previsto y el cuadro delimitador real del objeto

La confianza de los dos cuadros delimitadores se multiplica por las probabilidades de las 20 categorías respectivamente, y se puede obtener la probabilidad de cada categoría en los dos cuadros delimitadores.

Análisis clave
contenido relacionado con el cuadro delimitador

Cada cuadrícula proporciona información de dos cuadros delimitadores, pero un objeto solo requiere un cuadro delimitador. Para ello, la selección se realiza a través de ciertos criterios.
El vector de 30 dimensiones de salida contiene la confianza de los dos cuadros delimitadores, que refleja la intersección y comparación del cuadro predicho y el pagaré del cuadro real. Luego, las dos cajas IOU se cruzan y comparan, y quien sea más grande será responsable de predecir un objeto, y p (exist_objects) p (exist\_objects)p ( e x i s t _ o bj ec t s ) es 1, yel p (exist_objects) p(exist\_objects)p ( ex i s t _ obj ec t s ) es 0 . Luego, de acuerdo con la fórmula, el nivel de confianza es en realidad la intersección del pagaré y la proporción de unión.

celda de cuadrícula 与 cuadro delimitador

Divide la imagen en 7*7 7*777 cuadrícula (celda de cuadrícula), cada celda de la cuadrícula genera dos cuadros delimitadores de cuadros de predicción, y los puntos centrales de los cuadros de predicción caen dentro de la celda de la cuadrícula. Cada celda de la cuadrícula solo puede predecir un objeto.

función de pérdida

Insertar descripción de la imagen aquí

Análisis de fórmulas, donde 1 iobj 1_i^{obj}1io bjRepresentar cuadrícula iiHay un objeto de detección para i ,1 ijobj 1_{ij}^{obj}1yoo bjRepresentar cuadrícula iisoy jj_Hay objetos de detección en j cuadros delimitadores,1 ijnobj 1_ {ij}^{nobj}1yonobjRepresentar cuadrícula iisoy jj_j los cuadros delimitadores no tienen objetos de detección

La primera línea representa el error entre el punto central del borde y el error entre el cuadro delimitador previsto y el cuadro real en la celda de la cuadrícula.

La segunda línea representa el error del ancho y alto del cuadro predicho en relación con el cuadro de verdad del terreno. La prescripción tiene como objetivo reducir los problemas de sensibilidad causados ​​por diferentes tamaños.

La tercera línea representa el error de confianza, es decir, hay un objeto en el cuadro delimitador, C i ˉ \bar{C_i}CyoˉCuanto más alto mejor

La cuarta línea también representa el error de confianza, es decir, no hay ningún objeto dentro del cuadro delimitador, C i ˉ \bar{C_i}CyoˉCuanto más bajo mejor

La última fila representa el error de clasificación del objeto.

Supongo que te gusta

Origin blog.csdn.net/qq_44116998/article/details/128428200
Recomendado
Clasificación