Visión por Computador – Visión por Computador | CV

¿Por qué es importante la visión por computadora?

Casi el 70% de la corteza cerebral humana procesa información visual. Es el canal más importante para que los humanos obtengan información, sin excepción.

¡En el mundo online, las fotos y los vídeos (colecciones de imágenes) también están explotando!

La siguiente figura es un gráfico de tendencias de la proporción de datos nuevos en la red. El gris son datos estructurados, el azul son datos no estructurados (principalmente imágenes y videos). Es obvio que las imágenes y los vídeos están creciendo a un ritmo exponencial.

Los datos de imágenes y vídeos están creciendo rápidamente

Antes de la llegada de la visión por computadora, las imágenes estaban en un estado de caja negra para las computadoras.

Una imagen es sólo un archivo para la máquina. La máquina no sabe cuál es el contenido de la imagen, solo sabe qué tamaño, cuántos MB y en qué formato está la imagen.

 

Si las computadoras y la inteligencia artificial quieren desempeñar un papel importante en el mundo real, ¡deben comprender las imágenes! Este es el problema que resuelve la visión por computadora.

¿Qué es la visión por computadora – CV?

La visión por computadora es una rama importante de la inteligencia artificial y el problema que resuelve es comprender el contenido de las imágenes .

Por ejemplo:

  • ¿La mascota de la imagen es un gato o un perro?
  • ¿La persona de la foto es Lao Zhang o Lao Wang?
  • ¿Qué elementos hay sobre la mesa en esta foto?

 

¿Cuál es el principio de la visión por computadora?

Los principios de los métodos actuales de visión artificial basados ​​​​en el aprendizaje profundo son relativamente similares a los principios de funcionamiento del cerebro humano.

El principio de la visión humana es el siguiente: comenzando con la recepción de señales sin procesar (ingesta de píxeles por parte de la pupila), luego el procesamiento preliminar (algunas células de la corteza cerebral encuentran bordes y direcciones) y luego la abstracción (el cerebro determina que la forma del objeto frente a ti hay un círculo), y luego abstraerlo aún más (el cerebro determina además que el objeto es un globo).

Cómo el cerebro humano ve imágenes

El método de la máquina es similar: construye una red neuronal multicapa, la capa inferior reconoce las características principales de la imagen, varias características del nivel inferior forman las características del nivel superior y, finalmente, mediante la combinación de múltiples niveles, se realiza la clasificación. en el nivel superior.

 

Dos grandes desafíos en la visión por computadora

Es muy sencillo para los humanos entender las imágenes, pero es muy difícil para las máquinas. Aquí hay dos dificultades típicas:

Las características son difíciles de extraer.

El mismo gato en diferentes ángulos, con diferentes luces, con diferentes movimientos. La diferencia de píxeles es muy grande. Incluso si es la misma foto, después de girar 90 grados, ¡la diferencia de píxeles es muy grande!

Por tanto, el contenido de la imagen es similar o incluso igual, pero a nivel de píxeles los cambios serán muy grandes. Este es un gran desafío para la extracción de características.

La cantidad de datos que hay que calcular es enorme.

Cualquier foto que tomes con tu teléfono móvil tiene 1000*2000 píxeles. Cada píxel tiene parámetros RGB 3, un total de 1000 X 2000 X 3=6.000.000. Cualquier fotografía necesita procesar 6 millones de parámetros y luego contar los cada vez más populares vídeos 4K. Ya sabes lo aterrador que es este nivel de cálculo.

CNN  resuelve los dos problemas principales anteriores

CNN pertenece a la categoría de aprendizaje profundo y resuelve muy bien las dos dificultades principales mencionadas anteriormente:

  1. CNN puede extraer características de imágenes de forma eficaz
  2. CNN puede reducir efectivamente la dimensionalidad de datos masivos (sin afectar la extracción de características), lo que reduce en gran medida los requisitos de potencia informática.

8 tareas principales de la visión por computadora

 

Clasificación de imágenes

La clasificación de imágenes es un problema básico importante en la visión por computadora. Otras tareas que se mencionan más adelante también se basan en él.

Por poner algunos ejemplos típicos: reconocimiento facial, identificación de imágenes pornográficas, clasificación automática de álbumes de fotos en función de personas, etc.

Clasificación de imágenes

Detección de objetivos

El objetivo de la tarea de detección de objetos es generar una imagen o un cuadro de video y dejar que la computadora encuentre las posiciones de todos los objetos en ella y proporcione la categoría específica de cada objeto.

Detección de objetivos

Segmentación semántica

Divide toda la imagen en grupos de píxeles, que luego se etiquetan y clasifican. La segmentación semántica intenta comprender semánticamente qué es cada píxel de una imagen (persona, coche, perro, árbol...).

Como se muestra en la figura siguiente, además de identificar personas, carreteras, automóviles, árboles, etc., también debemos determinar los límites de cada objeto.

Segmentación semántica

división de instancias

Además de la segmentación semántica, la segmentación de instancias clasifica diferentes tipos de instancias, como marcar 5 autos con 5 colores diferentes. Veremos escenas complejas con múltiples objetos superpuestos y diferentes fondos, y no solo necesitaremos clasificar estos diferentes objetos, sino también determinar los límites, diferencias y relaciones de los objetos entre sí.

división de instancias

Clasificación de vídeos

A diferencia de la clasificación de imágenes, el objeto de clasificación ya no es una imagen fija, sino un objeto de video compuesto por múltiples cuadros de imágenes, que contienen datos de voz, información de movimiento, etc. Por lo tanto, comprender el video requiere obtener más información contextual. Necesitamos entender qué es cada cuadro de imagen y qué contiene, también necesitamos combinar diferentes cuadros y conocer la información contextual.

Clasificación de vídeos

Detección de puntos clave del cuerpo humano.

La detección de puntos clave del cuerpo identifica el movimiento y el comportamiento humanos mediante la combinación y el seguimiento de nodos clave del cuerpo humano, lo cual es crucial para describir la postura humana y predecir el comportamiento humano.

Esta tecnología se utiliza en Xbox.

Detección de puntos clave del cuerpo humano.

Reconocimiento de texto de escena

Muchas fotografías contienen información textual, que juega un papel importante en la comprensión de la imagen.

El reconocimiento de texto de escena es el proceso de convertir información de la imagen en secuencias de texto cuando el fondo de la imagen es complejo, la resolución es baja, las fuentes diversas y la distribución es aleatoria.

El reconocimiento de matrículas en aparcamientos y estaciones de peaje es un escenario de aplicación típico.

Reconocimiento de texto de escena

Seguimiento de objetivos

El seguimiento de objetivos se refiere al proceso de seguimiento de uno o más objetos de interés específicos en una escena específica. La aplicación tradicional es la interacción entre el vídeo y el mundo real, observando después de que se detecta el objeto inicial.

Esta tecnología se utilizará en la conducción autónoma.

Seguimiento de objetivos

Escenarios de aplicación del CV en la vida diaria.

La visión por computadora tiene una amplia gama de escenarios de aplicación, aquí se presentan algunos escenarios de aplicación comunes en la vida.

  1. Reconocimiento facial en control de acceso y Alipay
  2. Reconocimiento de matrículas en aparcamientos y peajes
  3. Identificación de riesgos al subir imágenes o vídeos a sitios web
  4. Varios accesorios en Douyin (primero debes identificar la posición de la cara)

Cabe señalar aquí que el escaneo de códigos de barras y códigos QR no se considera visión por computadora.

Este tipo de reconocimiento de imágenes todavía se basa en reglas fijas y no requiere procesamiento de imágenes complejas y no utiliza tecnología de inteligencia artificial en absoluto.

visión por computador

Es una ciencia que estudia cómo hacer que las máquinas "vean". En otras palabras, se refiere al uso de cámaras y computadoras en lugar de ojos humanos para realizar funciones de visión artificial, como la identificación, el seguimiento y la medición de objetivos, y además realiza el procesamiento de gráficos, haciendo procesamiento por computadora a Imágenes más adecuadas para la observación del ojo humano o transmitidas a instrumentos para su detección. Como disciplina científica, la visión por computadora estudia teorías y tecnologías relacionadas, tratando de construir sistemas de inteligencia artificial que puedan obtener "información" a partir de imágenes o datos multidimensionales. La información a la que se hace referencia aquí se refiere a información definida por Shannon que puede usarse para ayudar a tomar una "decisión". Dado que se puede considerar que la percepción extrae información de señales sensoriales, la visión por computadora también se puede considerar como la ciencia que estudia cómo hacer que los sistemas artificiales "perciban" a partir de imágenes o datos multidimensionales.

La visión por computadora es un campo científico interdisciplinario que se ocupa de cómo se pueden fabricar computadoras para obtener una comprensión de alto nivel a partir de imágenes o videos digitales. Desde una perspectiva de ingeniería, busca automatizar tareas que los sistemas de visión humana pueden realizar.

Las tareas de visión por computadora incluyen métodos para adquirir, procesar, analizar y comprender imágenes digitales, así como extraer datos de alta dimensión del mundo real para producir información numérica o simbólica, por ejemplo, en forma de decisiones.

Comprender en este contexto significa convertir imágenes visuales (entradas de la retina) en descripciones del mundo que puedan interactuar con otros procesos de pensamiento y provocar acciones apropiadas. Este tipo de comprensión de imágenes puede verse como desentrañar información simbólica de datos de imágenes utilizando modelos construidos a partir de geometría, física, estadística y teoría del aprendizaje.

Como disciplina científica, la visión por computadora se centra en la teoría detrás de los sistemas artificiales que extraen información de imágenes. Los datos de imágenes pueden adoptar muchas formas, como secuencias de vídeo, vistas de múltiples cámaras o datos multidimensionales de escáneres médicos. Como disciplina técnica, la visión por computadora intenta aplicar sus teorías y modelos a la construcción de sistemas de visión por computadora. Los subcampos de la visión por computadora incluyen reconstrucción de escenas, detección de eventos, seguimiento de video, reconocimiento de objetos, estimación de pose 3D, aprendizaje, indexación, estimación de movimiento y restauración de imágenes.

Supongo que te gusta

Origin blog.csdn.net/qq_38998213/article/details/132520987
Recomendado
Clasificación