YOLO9000 de la serie de detección de objetivos de aprendizaje profundo

1. Chismes

            Antes del estudio formal, me gusta dejarme llevar. Creo que la tecnología es para charlar. Encuentra una taberna y encuentra grandes dioses. Escuchemos la música y hablemos juntos. Así que espero especialmente poder poner mis propias palabras coloquialmente, como jugar. Al igual que los narradores de la antigüedad, Xiao Yuanshan y Murong Bo se sonrieron el uno al otro, Wang Tu dominante, sangre y sangre, y una profunda enemistad, todo al polvo. Esta es una forma de expresión que anhelo, pero todavía no puedo alcanzar ese nivel, así que solo puedo dar lo mejor de mí.

2.YOLOV2

      1. Diez puntos de transformación

            yolov1 mejora la velocidad de detección de objetivos, pero disminuye en términos de MAP. Entonces, hablando de los dioses de la lucha de hierro y el modelo del agua que fluye, naturalmente intentarán varias formas de resolver este problema. En mi opinión, es como un programador escribiendo un error, que siempre necesita ser corregido al final. Entonces yolov2 se puede dividir en dos partes: la primera parte es el esfuerzo por mejorar el MAP, y la segunda parte es la optimización del modelo original, por supuesto, bajo la premisa de asegurar la velocidad de detección.

           Los siguientes 10 puntos son los esfuerzos realizados por los grandes dioses de V2. ¿Qué significa esto, un aumento de velocidad? ¿Mayor precisión? ¿Mejorar la capacidad de generalización del modelo? Sí, pero lo que es más importante, creo que es una manifestación de la carga de trabajo y la liquidación de fin de año. A veces, cuando leemos el periódico, sentimos que estos grandes dioses son como santos. Todos sus esfuerzos tienen como objetivo beneficiar a la sociedad y promover un mayor desarrollo de la visión de la IA. De hecho, también son humanos, también tendrán restricciones desde varios aspectos, también tendrán su propio egoísmo, alguna pequeña obstinación y todo tipo de impotencia que nacen para ser humanos. Entonces, leer el periódico es hablar con los grandes dioses, mientras digo que eres asombroso, mientras pienso en mi corazón que debo superarte.

           

           Expliquemos: si los resultados predichos por el modelo no son muy satisfactorios, entonces busque las razones en los siguientes tres aspectos: datos, modelo, estrategia de entrenamiento. Si aún no funciona, ¡búsquelo con cuidado!

           1. Datos    

                        1) norma por lotes: después de que los datos se procesan por convolución, su media y distribución cambiarán. Usamos este método para extraer los datos de la capa intermedia de nuevo a la misma distribución que los datos originales. Para decirlo sin rodeos, es evitar que los datos se ejecuten demasiado en serio.

           2. Modelo       

.1                          ) Convolucional  utilizando una red de convolución completa, después de la conexión completa de las dos capas yolov1 eliminado y reemplazado por convolución. La ventaja de la convolución completa es que la entrada puede ser arbitraria.

                         2) La nueva red   diseñó una red darknet19 ligera, que redujo en gran medida la cantidad de cálculos y parámetros, y aumentó la precisión en un 0,4%.

                         3) Las cajas de anclaje se  basan en el concepto de ancla de más rápido y agrega el concepto de caja a priori, y cada celda predice 5 cajas.

                         4) Passthrough  concat une el mapa de características 26 * 26 antes de la última capa de agrupación y la última característica 13 * 13 juntos para la detección final. Aquí hay un poco de pensamiento FPN, porque la información superficial lleva más información de forma y es más adecuada para detectar objetos pequeños; las características profundas transportan más información semántica y son adecuadas para detectar objetos grandes. Después de la fusión, el modelo puede mejorar la capacidad de predicción de objetos pequeños.

                                         

            3. Estrategia de formación

                         1) clasificador de alta resolución: clasificador de alta resolución, que convierte las imágenes 224 * 224 de imagenet en 448 * 448 durante diez rondas de preentrenamiento. En comparación con yolov1, entrene directamente en 224 y luego extraiga funciones en 448. De esta forma, se mejorará la capacidad de clasificación del modelo.

                         2) La diferencia entre las dimensiones previas  y el tamaño y la relación de la caja a priori definidos manualmente en más rápido es que yolov2 usa k-medias para agrupar los datos antes del entrenamiento, y usa 1-IOU para calcular la distancia entre la caja y la caja, agrupando La anchura y la altura de la última caja central del grupo se toman como la anchura y la altura de la caja a priori.

                         3) La  diferencia entre la predicción de ubicación y más rápido es que la xey del cuadro de predicción yolov2 están desplazadas desde la esquina superior izquierda de la celda, y para predecir que el centro del cuadro excede la celda, se realiza la normalización sigmoidea. Debido a que el método de predicción del más rápido conducirá a la inestabilidad del modelo, especialmente en las primeras rondas, es posible que el punto central a menudo exceda la posición del punto central del cuadro de predicción.

                              

                           

                            4) Para el entrenamiento de múltiples escalas  con múltiples tamaños, el tamaño de la imagen de entrada se cambia aleatoriamente cada 10 rondas (esta es la majestuosidad de la convolución completa), el tamaño varía de 320,352, ..., 608, todos los cuales son 32 Múltiplos de. Porque el tamaño de la imagen de entrada y la salida de la capa convolucional de la red troncal se reducen 32 veces. El modelo entrenado de esta manera tiene una mayor capacidad de generalización y la predicción de comparar imágenes de diferentes tamaños será más precisa.

                            5) El último punto del detector de alta resolución   es más como un subproducto, predice con mayor precisión para imágenes de alta resolución, porque el entrenamiento se realiza a alta resolución, por lo que la resolución más alta es más precisa. Y para las imágenes de alta resolución, su propio poder explicativo es muy fuerte y la información semántica es más rica.

 

3.yolo9000

             ¿Por qué es un nombre tan atrevido? Parece que yolo ha evolucionado durante mucho tiempo. El 9000 aquí significa que yolo puede predecir con precisión 9000 categorías. ¿Cómo hacerlo? Todos sabemos que el conjunto de datos de imagenet utilizado para la clasificación tiene un total de 14197122 imágenes y está dividido en 21841 categorías; el conjunto de datos utilizado para la detección tiene una mayor carga de trabajo, por lo que el número de imágenes y el número de clasificaciones en el conjunto de datos será menor. Por ejemplo, hay alrededor de 330.000 imágenes en el conjunto de datos de coco con 80 categorías.

             En esencia, las tareas de predicción y clasificación del marco objetivo son dos tareas diferentes, por lo que podemos intentar usar el conjunto de datos de clasificación para la clasificación y usar el conjunto de datos de detección para la detección + clasificación (porque el conjunto de datos de detección debe tener información de categoría de). De esta manera, el modelo puede enmarcar y marcar más tipos de imágenes de objetos.

            El ideal está pleno, ¿cómo realizarlo? Usamos la propagación hacia atrás de la pérdida para controlarla, que es demasiado alta, de hecho, cuando entra el conjunto de datos clasificados, solo la pérdida clasificada participará en el ajuste inverso.

           Pero otro problema es que cierta información de categoría en los dos conjuntos de datos no es independiente entre sí. Por ejemplo, gato y Garfield, Garfield también es una especie de gato. Este es un gran problema, porque el aprendizaje profundo asume que los datos son independientes entre sí. Entonces el gran dios encontró un árbol, las grandes cosas están relacionadas con los árboles. wordtree, como se muestra en la figura siguiente, toda la información de categoría está conectada mediante una estructura de árbol, y la ruta desde cada nodo hijo hasta el nodo raíz es única. Esta singularidad elimina el problema causado por la duplicación de gatos y Garfield. Nuestro juego puede continuar Al predecir, la salida de probabilidad correspondiente a cada nodo es igual al producto de las salidas de todos los nodos en la ruta. ¡Es perfecto!

                          

4. Desempeño

       1.VOC2007

                           

       2.VOC2012

3.coco

 Podemos ver que en comparación con la v1, el rendimiento y la precisión de la versión yolov2 han mejorado, pero todavía hay algunas brechas en su rendimiento en comparación con SSD. Pero su velocidad es realmente muy rápida. Entonces, yolo, que nunca admitirá la derrota, tendrá mucho trabajo duro y te ofreceremos uno por uno en el seguimiento.

4. Resumen

        En este artículo, presentamos las mejoras realizadas por yolov2 sobre la versión v1. Incluye principalmente tres aspectos: aspecto de datos: BN; aspecto de modelo: darkenet19, convolución completa, paso a través, cuadro de anclaje; aspecto de estrategia de entrenamiento: clasificación de alta resolución, detección de alta resolución, agrupamiento, entrenamiento de varios tamaños, ajuste de pérdida; luego Se introduce el principio de funcionamiento de yolo9000. El conjunto de datos de clasificación solo realiza un ajuste inverso de la pérdida de clasificación. Para resolver el problema de la no independencia de la información de categoría, introdujimos wordtree; el modelo final puede detectar con éxito 9000 objetos. Por último, se resumen el rendimiento y la precisión de yoloV2. Su precisión se ha mejorado considerablemente, pero todavía hay una brecha en el conjunto de datos de coco en relación con el ssd. yolo nunca te rindas! Hasta la proxima

5. Momento del postre

           Valoro mucho un tipo de habilidad, llamada capacidad de creer. Creo que la gente puede creer en algo que parece imposible, y este tipo de fe es lo suficientemente grande. Los niños quieren ser Spider-Man, ¡creemos que es tan lindo! ¿Pero todavía lo crees cuando seas grande? ¿Hay algún problema con su coeficiente intelectual? No necesariamente, realmente no necesariamente. ¿Cuánto sabemos sobre el mundo? Patético. ¿Qué tan exacto es este pequeño conocimiento? Patético. El primer paso para descubrir la verdad es creerla. Por lo tanto, siempre he creído que todos somos personas imperfectas en la tierra, originalmente éramos perfectos. Valor nominal, carácter, brillo infinito y muchos otros aspectos que no puedo imaginar. No sé exactamente por qué vine, pero creo profundamente que algún día regresaré. De vuelta al estilo original, un estilo perfecto. Pero tal vez no todas las personas puedan regresar. El mundo puede ser un casino, y si pierde el juego, es posible que no pueda regresar. Entonces, ¿cuál es la apuesta? Quizás sea apostar a que cuando nos volvamos imperfectos, haremos algunas cosas malas.

  

         

[Peso pesado] Se lanza el último sencillo electrónico de Justin Bieber "Cold Water" ~ Puedo escuchar el llanto durante todo el proceso @ 油 兔 不二 分 視 组

 

       

 

 

 

 

 

 

Supongo que te gusta

Origin blog.csdn.net/gaobing1993/article/details/108382560
Recomendado
Clasificación