Introducción a la detección de objetos con aprendizaje profundo

La aplicación de la detección de objetos ha calado en nuestro día a día, incluyendo la seguridad, los sistemas de vehículos autónomos, etc. Los modelos de detección de objetos ingresan elementos visuales (imágenes o videos) y generan versiones etiquetadas alrededor de cada objeto correspondiente. Es más fácil decirlo que hacerlo, ya que los modelos de detección de objetos deben tener en cuenta algoritmos y conjuntos de datos complejos que se han perfeccionado y desarrollado mientras hablamos.

Esto es lo que vamos a cubrir hoy, para brindarle una introducción completa a la detección de objetos:

1. La base de la detección de objetivos

Antes de sumergirse en las aplicaciones de detección de objetos, los casos de uso y los métodos básicos de detección de objetos, es crucial tener una comprensión sólida de la detección de objetos en sí. El término a menudo se usa indistintamente con técnicas como la clasificación de imágenes, el reconocimiento de objetos, la segmentación, etc. Sin embargo, debe admitirse que muchas de las tareas mencionadas anteriormente son tareas separadas, generalmente pertenecientes a la detección de objetos. No es correcto usarlos equiparados entre sí porque ambos involucran tareas igualmente importantes.
inserte la descripción de la imagen aquí

¿Qué es la detección de objetos?

La detección de objetos es una técnica de visión artificial profunda que se enfoca en reconocer y etiquetar objetos en imágenes, videos e incluso imágenes en vivo. Para realizar este proceso en datos nuevos, se entrena un modelo de detección de objetos utilizando las imágenes visuales anotadas restantes. Se vuelve tan fácil como ingresar imágenes y recibir imágenes de salida completamente etiquetadas. Discutiremos los modelos de detección de objetos con más profundidad más adelante. Un componente clave son los cuadros delimitadores de detección de objetos, que identifican los bordes de los objetos marcados con cuadriláteros afilados, generalmente cuadrados o rectángulos. Todos van acompañados de la etiqueta del objeto, ya sea una persona, un coche o un perro para describir el objeto de destino. Los cuadros delimitadores se pueden superponer para revelar varios objetos en una toma determinada, siempre que el modelo tenga conocimiento previo de los elementos que etiqueta.

Detección de objetos y otras tareas

Analicemos las otras tareas de visión por computadora individualmente para comprender mejor cada una:

  • Clasificación de imágenes : esta es la predicción de la categoría de elementos en una imagen. Por ejemplo, cuando realiza una búsqueda inversa de imágenes en Google, es posible que reciba un mensaje que diga "Puede contener 'x', donde 'x' es el objeto principal de la imagen detectada por esta técnica. La clasificación de imágenes puede mostrar que las imágenes son Un objeto específico, pero se refiere a un objeto principal y no proporciona la ubicación del objeto en la visión.
  • Segmentación : también conocida como segmentación semántica, es la tarea de agrupar píxeles con atributos comparables, en lugar de identificar objetos con cuadros delimitadores.
  • Localización de objetos : la diferencia con la detección de objetos es sutil pero obvia. La localización de objetos tiene como objetivo identificar la ubicación de uno o más objetos en una imagen, mientras que la detección de objetos identifica todos los objetos y sus límites con menos énfasis en la ubicación.

2. Aprendizaje profundo versus aprendizaje automático

Ahora que tiene nuestra introducción básica a la detección de objetos, es hora de ver los dos modelos principales para la detección de objetos: aprendizaje profundo y aprendizaje automático. Los analistas de datos a menudo consideran que los métodos de aprendizaje profundo son relativamente avanzados porque se consideran más intuitivos y no requieren mucha intervención humana. En última instancia, ambos métodos producirán resultados precisos, pero esta vez nos centraremos en la detección de objetos con aprendizaje profundo.
inserte la descripción de la imagen aquí

¿Qué es la detección de objetos con aprendizaje profundo?

Lo que separa la detección de objetos con aprendizaje profundo de otros métodos es el uso de redes neuronales convolucionales (CNN). Las redes neuronales imitan la compleja estructura neuronal del cerebro humano. Consisten principalmente en una capa de entrada, una capa interna oculta y una capa de salida. El aprendizaje de estas redes neuronales puede ser supervisado, semi-supervisado y no supervisado, en referencia a cuántos datos de entrenamiento se anotan, si los hay (no supervisados). Debido a que las CNN pueden aprender automáticamente con menos ingeniería humana, las redes neuronales profundas para la detección de objetos producen los resultados de detección de objetos únicos y múltiples más rápidos y precisos hasta la fecha. Hay un mundo de aprendizaje profundo y cnn por descubrir, pero hoy solo nos enfocamos en puntos clave sobre algoritmos y modelos de detección de objetos.

3. Métodos y Algoritmos

La detección de objetos es imposible sin un modelo diseñado específicamente para manejar esta tarea. Estos modelos de detección de objetos se entrenan con decenas de miles de contenido visual para optimizar la precisión de detección de forma automática más adelante. Los modelos se pueden entrenar y refinar de manera eficiente con la ayuda de conjuntos de datos fácilmente disponibles como COCO (Objetos comunes en contexto), lo que lo ayuda a comenzar a escalar su canalización de anotaciones.

Echemos un vistazo más de cerca a varios de los algoritmos y enfoques de detección de objetos más destacados.

R-CNN, R-CNN rápido, R-CNN más rápido

La primera familia de métodos de gran éxito fue R-CNN (Redes neuronales convolucionales basadas en regiones), que se propuso en 2014. Supera a los métodos anteriores al extraer solo 2000 regiones de una imagen, que se denominan propuestas de regiones, en lugar de la gran cantidad de regiones anteriores. El diagrama de flujo de R-CNN es el siguiente: se selecciona una imagen de entrada de la que se extraen 2000 propuestas de región. A continuación, las características se extraen de cada región individual, que luego se clasifica en una de las clases conocidas. La principal desventaja de R-CNN es que aunque se extraen propuestas de la región 2000, el proceso es muy largo. Esto es lo que allanó el camino para el nuevo y mejorado Fast R-CNN.

No solo el proceso de detección de objetos con una gran cantidad de regiones requiere mucho tiempo, sino que también el entrenamiento de las CNN con tantas regiones requiere mucho tiempo. Fast R-CNN reduce en gran medida el tiempo de procesamiento al alimentar imágenes en una CNN previamente entrenada para generar mapas de características convolucionales, eliminando el proceso de descomposición de imágenes en propuestas de 2000 regiones. En su lugar, las propuestas de región se pueden identificar fácilmente a partir de mapas de características y enviarlas a la capa de agrupación de RoI, que extrae características de una región determinada. La salida de la capa anterior luego es procesada por una capa completamente conectada, donde el modelo se divide en dos salidas: una para la predicción de clase a través de una capa softmax y otra para la predicción de cuadro delimitador a través de una salida lineal.

¿Qué tan importante es el salto de R-CNN a Fast R-CNN?El tiempo de capacitación de CNN se redujo de 84 horas a 9 horas . Además, el tiempo de prueba se redujo de 50 segundos a 2,5 segundos .

Posteriormente se introdujo un tercer modelo más actualizado, denominado Faster R-CNN. La arquitectura es similar a Fast R-CNN, con algunos ajustes notables. Faster R-CNN no utiliza la búsqueda selectiva, que se basa en la agrupación jerárquica de regiones similares. La Red de Propuestas Regionales tomará su lugar para finalizar las propuestas regionales en un tiempo récord. Reduce la velocidad de prueba de 2,5 segundos de Fast R-CNN a 0,2 segundos imbatibles , lo que lo convierte en el más rápido de sus predecesores y la mejor opción para la detección de objetos en tiempo real.

yolo

¿Y si decimos que existe una red neuronal convolucional más rápida que R-CNN? ¡Pues la hay! En 2015 se propuso una familia de redes neuronales, abreviada como YOLO, en referencia a la famosa frase "Solo se vive una vez". . Esto se basa en el simple hecho de que la red "mira" o pasa a través de la red solo una vez antes de generar la imagen final. Esto permite la detección de objetos con imágenes en tiempo real, lo cual es bastante deseable para aplicaciones relacionadas con la vigilancia. Debido a su velocidad excepcional, la precisión de los objetos detectados es menor que la de los modelos antes mencionados, pero aun así se las arregla para ser un competidor superior entre otros modelos.
inserte la descripción de la imagen aquí

4. Casos de uso y aplicaciones

La detección de objetos con deep learning es muy habitual en nuestro día a día, como ya hemos visto algunos ejemplos. Su importancia en el mundo moderno es mucho mayor de lo que muchos suponen inicialmente.

Vigilancia, Seguridad y Tráfico

Dejando de lado las etiquetas de datos, la detección de objetos en video y secuencias en vivo es la piedra angular de la vigilancia de vanguardia. La visión artificial tiene como objetivo superar continuamente las expectativas, innovando en la detección de robos, infracciones de tráfico, actividad humana sospechosa y más. Todos estos procesos se están supervisando gradualmente con más eficacia que nunca.

auto

Para la conducción autónoma, la detección de objetos es necesaria para que el coche pueda decidir si acelera, frena o gira en el momento siguiente. Esto requiere la detección de objetos para identificar una variedad de cosas, como automóviles, peatones, señales de tráfico, señales de tránsito, bicicletas, motocicletas y más.

el médico

La detección de objetos presenta un perfecto desarrollo en el campo de la medicina, especialmente en la radiología. Si bien la tecnología no reemplazará por completo la necesidad de conocimientos especializados por parte de radiólogos y otros especialistas, reducirá drásticamente el tiempo que lleva analizar cientos o miles de ecografías e incluso radiografías, resonancias magnéticas y tomografías computarizadas todos los días.

minorista

Gestión de inventario inteligente que no requiere controles de inventario manuales, una experiencia de compra sin cajero y más minoristas que implementan la visión artificial de detección de objetos en sus tiendas.

5. Puntos clave

La detección de objetos es donde la clasificación de imágenes y la localización de objetos se unen para interpretar y etiquetar una variedad de imágenes, desde imágenes hasta imágenes en vivo. Durante la última década, los modelos de detección de objetos que utilizan aprendizaje profundo han disminuido significativamente el tiempo y la velocidad de procesamiento, lo que no sería factible sin las CNN. Podemos ver claramente que la detección de objetos es omnipresente en aplicaciones que van desde las características de seguridad de los teléfonos inteligentes hasta la base de la que dependerá la próxima generación de automóviles inteligentes. Después de todo, los modelos de detección de objetos evolucionan, crecen e innovan todos los días para volverse más precisos y resolver más problemas en tiempo real en el mundo moderno.

Esperamos que esta introducción básica a la detección de objetos con aprendizaje profundo sirva como base sobre la cual construir más.

Supongo que te gusta

Origin blog.csdn.net/weixin_51141489/article/details/131340796
Recomendado
Clasificación