Estructura de red
卷积层+池化层+全连接层
Introduzca 448 ∗ 448 448*448448∗
Salidade imagen de tamaño 448 7 ∗ 7 ∗ 30 7*7*307∗7∗Tensor de 30
El tensor de 30 dimensiones incluye las probabilidades de 20 objetos, la confianza de 2 cuadros delimitadores y sus posiciones (la información de posición de un cuadro delimitador requiere cuatro valores y dos cuadros delimitadores requieren un total de 8 valores)
La probabilidad de 20 objetos es la probabilidad condicional. Si hay un objeto de detección en la cuadrícula, entonces la probabilidad de que el objeto de detección sea de categoría A: p (PA ∣ existe _ objetos) p(P_A|exist\_objects)pag ( pagun∣ e x i s t _ o bj ec t s )
Confianza de 2 cuadros delimitadores, donde confianza = p (exist_objects) * valor de pagaré entre el cuadro delimitador previsto y el cuadro delimitador real del objeto
La confianza de los dos cuadros delimitadores se multiplica por las probabilidades de las 20 categorías respectivamente, y se puede obtener la probabilidad de cada categoría en los dos cuadros delimitadores.
Análisis clave
contenido relacionado con el cuadro delimitador
Cada cuadrícula proporciona información de dos cuadros delimitadores, pero un objeto solo requiere un cuadro delimitador. Para ello, la selección se realiza a través de ciertos criterios.
El vector de 30 dimensiones de salida contiene la confianza de los dos cuadros delimitadores, que refleja la intersección y comparación del cuadro predicho y el pagaré del cuadro real. Luego, las dos cajas IOU se cruzan y comparan, y quien sea más grande será responsable de predecir un objeto, y p (exist_objects) p (exist\_objects)p ( e x i s t _ o bj ec t s ) es 1, yel p (exist_objects) p(exist\_objects)p ( ex i s t _ obj ec t s ) es 0 . Luego, de acuerdo con la fórmula, el nivel de confianza es en realidad la intersección del pagaré y la proporción de unión.
celda de cuadrícula 与 cuadro delimitador
Divide la imagen en 7*7 7*77∗7 cuadrícula (celda de cuadrícula), cada celda de la cuadrícula genera dos cuadros delimitadores de cuadros de predicción, y los puntos centrales de los cuadros de predicción caen dentro de la celda de la cuadrícula. Cada celda de la cuadrícula solo puede predecir un objeto.
función de pérdida
Análisis de fórmulas, donde 1 iobj 1_i^{obj}1io bjRepresentar cuadrícula iiHay un objeto de detección para i ,1 ijobj 1_{ij}^{obj}1yoo bjRepresentar cuadrícula iisoy jj_Hay objetos de detección en j cuadros delimitadores,1 ijnobj 1_ {ij}^{nobj}1yonobjRepresentar cuadrícula iisoy jj_j los cuadros delimitadores no tienen objetos de detección
La primera línea representa el error entre el punto central del borde y el error entre el cuadro delimitador previsto y el cuadro real en la celda de la cuadrícula.
La segunda línea representa el error del ancho y alto del cuadro predicho en relación con el cuadro de verdad del terreno. La prescripción tiene como objetivo reducir los problemas de sensibilidad causados por diferentes tamaños.
La tercera línea representa el error de confianza, es decir, hay un objeto en el cuadro delimitador, C i ˉ \bar{C_i}CyoˉCuanto más alto mejor
La cuarta línea también representa el error de confianza, es decir, no hay ningún objeto dentro del cuadro delimitador, C i ˉ \bar{C_i}CyoˉCuanto más bajo mejor
La última fila representa el error de clasificación del objeto.