基于深度学习的目标检测RCNN家族
1.
Los documentos de la serie R-CNN R-CNN (R-CNN, fast-RCNN, Fast-RCNN) son los documentos originales de la detección de objetos mediante el aprendizaje profundo, entre los cuales Fast-RCNN y Fast-RCNN siguen la idea de R -CNN.
El nombre completo de R-CNN es región con características de CNN, de hecho, su nombre es una buena explicación. Use CNN para extraer las funciones en las propuestas de región y luego realice la clasificación SVM y la regresión de bbox.
2. El proceso general de R-CNN
RCNN的流程:
(1) La segmentación de la imagen se realiza primero en la imagen y se divide en regiones de imagen de 2k.
(2) Entrene previamente una red CNN para la clasificación de imágenes
(3) Extraiga las características de la imagen de la región de corte a través de la red CNN preentrenada, sin realizar la capa completamente conectada de la red CNN, y solo realice la extracción de características en la imagen (4) Extracción de características
La imagen extraída establece un clasificador SVM correspondiente, y las características de la imagen se ingresan para la clasificación.
(5) Pase la imagen extraída de características a la red del modelo de posicionamiento, ubique la posición central, el ancho y la altura del objetivo en el área y entrene la red
(1) Principio de funcionamiento de la búsqueda selectiva:
(2) Regresión de cuadro delimitador (regresión de cuadro delimitador):
Función de pérdida:
(3) diagrama de arquitectura R-CNN
(4): cuello de botella computacional de R-CNN
3. R-CNN rápido
(1) Diagrama de arquitectura Fast R-CNN
可以看出Fast RCNN主要有3个改进:
1. La convolución ya no se realiza en cada propuesta de región, sino directamente en toda la imagen, lo que reduce muchos cálculos repetidos. Resulta que RCNN realiza la convolución en cada propuesta de región por separado, porque hay alrededor de 2000 propuestas de región en una imagen y la tasa de superposición entre ellas debe ser alta, por lo que se repiten los cálculos.
2. Utilice la agrupación de ROI para transformar el tamaño de la entidad, ya que la entrada de la capa completamente conectada requiere el mismo tamaño, por lo que la propuesta de región no se puede usar directamente como entrada.
3. Coloque el regresor en la red para entrenar juntos, cada categoría corresponde a un regresor, y reemplace el clasificador SVM original con softmax.
(2) agrupación de retorno de la inversión
(3) función de pérdida
(4) Resumen
4. R-CNN más rápido
Region Proposal Network(RPN):
Es decir, la red de candidatos de regiones, que sustituye a la Búsqueda Selectiva de la versión anterior del RCNN, y se utiliza para generar casillas de candidatos. Hay dos partes en la tarea aquí, una es la clasificación: juzgar si todos los anclajes preestablecidos son positivos o negativos (es decir, si hay un objetivo en el anclaje, dos clasificaciones); también hay una regresión de cuadro delimitador: anclajes correctos para obtener propuestas más precisas. Por lo tanto, la red RPN es equivalente a hacer una parte de la detección por adelantado, es decir, juzgar si hay un objetivo (aquí no se juzga la categoría específica) y corregir el ancla para que el marco sea más preciso.
(1) Pasos de entrenamiento
(2) Función de pérdida
(3) Resumen
5. Diagrama esquemático del resumen de la familia RCNN