Sensores similares al cerebro: sensor de visión dinámica y sensor de audio dinámico

cámara de visión dinámica

Un poquito de historia

Cámara de visión dinámica Dynamic Vision Sensor (DVS), a veces también llamada cámara de eventos (Event camera) o retina de silicio (Silicon Retina). El origen de DVS se remonta a su inventor, Misha Mahowald . Misha aprendió de Caver Mead , el creador del campo de la ingeniería inspirado en el cerebro (Carver Mead también es una gran figura en el diseño de circuitos VLSI, y también se considera que dio nombre a la Ley de Moore). Durante su período de doctorado, ella y Tobi Delbruck fue pionera en combinar los campos de la biología, la informática y la ingeniería eléctrica para crear el primer sistema retinal de silicio. Este es también el prototipo de la primera cámara de visión dinámica. Más tarde, ella y Tobi Delbruck y varios gigantes tecnológicos actuales inspirados en el cerebro trajeron la tecnología a Zúrich y cofundaron el Instituto INI de Neuroinformática con la ETH Zúrich y la Universidad de Zúrich, centrándose en la investigación Neurociencia, tecnologías relacionadas con neuromórficas, entre las que se encuentran la retina de silicio es una tecnología importante, y en 1996, Misha se convirtió en miembro del Salón de la Fama de Mujeres Internacionales en Tecnología (WITI) debido a este extraordinario caso de ingeniería. Desafortunadamente, Misha tenía 33 años y terminó su joven vida.
inserte la descripción de la imagen aquí
Sin embargo, el desarrollo de la tecnología retinal electrónica de silicio no se ha estancado debido a la partida de Misha, sino que se ha vuelto más maduro después de más de 10 años de desarrollo. Inivation, una empresa nueva de INI, ha convertido DVS en un producto maduro. No solo el sensor completo integra una matriz de píxeles de eventos biónicos, sino que también integra periféricos sincrónicos como cámaras RGB y sensores IMU para ayudarlo a lograr una sincronización de información más poderosa. y colección habilidad. Otra empresa nueva con gran solidez, Prophesee, ofrece sensores de visión dinámica de alta resolución y coopera con Sony para combinar la tecnología óptica y electrónica más avanzada con dvs, lo que reduce en gran medida el área del chip y el rendimiento óptico. Además, hay una serie de empresas de nueva creación de alta tecnología que se están preparando para lanzar.Al mismo tiempo, a nivel de algoritmos de aplicación, cada vez más investigadores e ingenieros científicos han aplicado señales de cámaras de eventos a diversas industrias.
inserte la descripción de la imagen aquí
Figura: cámara de visión dinámica producida por Inivation

inserte la descripción de la imagen aquí
Figura: el próximo chip sensor de cámara para eventos de Sony

Detección de visión dinámica

Entonces, ¿qué es DVS? En lenguaje sencillo, es: "Solo muestra imágenes de objetos en movimiento".

En términos de principio de funcionamiento, la característica más importante de DVS es la percepción asíncrona . Comparémoslo con una cámara digital tradicional:

Para una cámara tradicional, cada uno de sus elementos fotosensibles muestrearán todo el conjunto fotosensible de forma síncrona de acuerdo con una frecuencia de muestreo determinada, por lo que cada imagen debe basarse en una señal de reloj como referencia. De esta forma, obtenemos una matriz del valor real del muestreo de la señal de fotocorriente, suponiendo que tenemos una matriz de píxeles de tamaño 100x100, tres canales de muestreo RGB y una frecuencia de muestreo de 1/30 de segundo, obtenemos una matriz como grande como 100x100x30x3, donde 100x100x3 es lo que solemos llamar un marco de fotos.

Aquí viene la diferencia, para la misma matriz de 100x100 píxeles, el trabajo de cada píxel en DVS es independiente y no interfiere entre sí. Es decir, cada píxel fotosensible solo es sensible de forma independiente a una parte del área de la que es responsable. Al mismo tiempo, cada píxel fotosensible ya no muestrea directamente el valor real, sino que compara si el valor de cambio relativo de la fotocorriente excede un valor umbral todo el tiempo. En consecuencia, el cambio de la intensidad de la luz en realidad corresponde al cambio de la fotocorriente.De hecho, cada posición de píxel en el DVS es para detectar si el cambio de la intensidad relativa de la luz es evidente. Cuando se detecta un cambio suficiente en la intensidad de la luz en el píxel correspondiente, el sensor enviará una " señal de evento ". En términos generales, esta señal es un paquete de datos que contiene la siguiente información

  • Dirección de coordenadas de píxeles (x, y)
  • Cambios en la polaridad de la intensidad de la luz
  • Marca de tiempo cuando ocurrió el evento

Como se muestra en la figura a continuación, suponiendo que usamos DVS (parte inferior de la imagen) y una cámara tradicional (parte superior de la imagen) para obtener imágenes del disco giratorio al mismo tiempo, podemos ver claramente la diferencia. La imagen de la cámara tradicional se basa en la frecuencia de muestreo, por lo que la información entre fotograma y fotograma se perderá.El movimiento del punto negro del disco se refleja discretamente en distintas posiciones de cada fotograma de la imagen. el disco deja de girar, las cámaras tradicionales aún capturan imágenes de un disco estático a una frecuencia de muestreo.

Para DVS, solo el área de píxeles donde cambia la intensidad de la luz enviará una señal de evento y, al mismo tiempo, no hay limitación en la frecuencia de muestreo. La salida de datos que obtenemos se puede ver como una serie de flujos de eventos continuos cuando el disco gira. . Y cuando el disco deja de girar, porque no hay un cambio evidente en la intensidad de la luz, la cámara DVS no genera ninguna señal. Entonces, para DVS, su salida es completamente diferente de la frecuencia de muestreo para diferentes escenas. Puede haber muchas imágenes para objetos en movimiento de gran volumen y alta velocidad, pero para fondos estáticos, se puede decir que no se genera ningún dato.
inserte la descripción de la imagen aquí
Figura: Cámara tradicional VS Cámara de eventos

Como se muestra en la figura a continuación, es un principio de funcionamiento simple de un píxel DVS. Debido a que el blogger no es experto en circuitos IC, no lo analizará a la fuerza. Pero se puede ver que toda la tubería se compone de varios módulos funcionales, el elemento fotosensible frontal, el cálculo del dominio de registro, la amplificación diferencial y el comparador. Donde, cuando el valor logarítmico de la intensidad de la luz cambia a una dirección mayor, obtenemos un evento con polaridad ENCENDIDA; de lo contrario, obtenemos un evento APAGADO.

inserte la descripción de la imagen aquí
Figura: principio de funcionamiento de píxeles DVS

Entonces, ¿qué ventajas puede aportar DVS a la detección visual?

  • Alto rango dinámico
    Cualquiera que sepa cómo tomar fotografías debe saber que cuando captura imágenes con grandes diferencias en la iluminación, un mayor rango dinámico puede lograr un mayor espacio tonal, como una ventana brillante y un interior oscuro. La luz de la ventana es mucho más brillante que la luz dentro de la pared, y si el rango dinámico no es lo suficientemente alto, entonces la luz de la ventana es demasiado brillante y sobreexpuesta (aparece blanca) o la pared está demasiado oscura y subexpuesta. (aparece negro de). La imagen de DVS depende del valor de cambio relativo de la intensidad de la luz, lo que hace que sea una imagen estable y clara en el estado de sobreexposición y subexposición. El rango dinámico teórico de un DVS es de unos 120dB. El rango dinámico del ojo humano es de solo unos 30-40dB.
    inserte la descripción de la imagen aquí
    Figura : Imágenes de la cámara de eventos en luz oscura

  • Superar el desenfoque de movimiento en la captura de imágenes
    Debido a que DVS supera la frecuencia de muestreo de las cámaras tradicionales, no existe un límite de frecuencia de fotogramas para la captura de imágenes de objetos en movimiento. La esencia del desenfoque de movimiento es la falta de coincidencia entre la velocidad de fotogramas de la imagen de la cámara y la velocidad de movimiento del objeto. El flujo continuo de eventos generado por DVS puede ser teóricamente equivalente a una velocidad de imagen de 4000-5000 FPS. En la actualidad, la mayoría de las cámaras DVS pueden lograr un retraso de imagen de nivel estadounidense y, para una cámara tradicional de 30 FPS, el retraso es de unos 33 ms.
    inserte la descripción de la imagen aquí
    Figura: Imágenes de alta velocidad de cámaras de eventos

  • consumo de energía ultra bajo

Debido a la percepción asincrónica de DVS y la relación entre solo detectar el cambio de intensidad de la luz, los datos generados por DVS en la mayoría de las escenas visuales típicas son extremadamente escasos, y el consumo de energía de la mayoría de las cámaras de eventos está en el nivel de 10 mW, que tiene la función de algunos prototipos de cámaras El consumo de energía puede ser incluso inferior a 10 uW, que es mucho menor que el de las cámaras digitales tradicionales (clase de 100 mW).

inserte la descripción de la imagen aquí
Figura: Comparación entre sensores (de Wikipedia)

Sensor de audio dinámico

Sensor de audio dinámico DAS, también conocido como silicon cochlear (silcon cochlear), su función es convertir diversas señales de sonido en la vida real en señales de eventos. Al igual que DVS, el principio de DAS en sí mismo es convertir señales en señales de eventos asíncronos a través del diseño de circuitos . Su inventor, Shih-Chii Liu, también provino del INI, el famoso Instituto de Información Neural mencionado anteriormente.Esta invención también lleva la detección basada en eventos a un campo más amplio de procesamiento de señales de audio. Shih-Chii también ganó los Premios Misha Mahowald por esta investigación (sí, es un premio creado para conmemorar la contribución de Misha al campo similar al cerebro).

inserte la descripción de la imagen aquí
Figura: Módulos funcionales de DAS

Lo que consigue el DAS es imitar la función del sistema auditivo biológico a nivel de circuito, es decir, el proceso de cambio de excitación sonora visual real a señal de pulso eléctrico. Según entiende el blogger: La señal eléctrica auditiva se genera porque los órganos internos de las vellosidades distribuidos en la cóclea pueden generar señales eléctricas regulares a vibraciones de diferentes intensidades y frecuencias, este fenómeno se denomina topología de frecuencia. Esto es muy parecido al análisis de espectro de tiempo del sonido en el procesamiento de señal digital moderno. En DAS, este proceso está diseñado en varios bancos de filtros de paso de banda y rectificadores de media onda que cumplen con el rango de frecuencia, además de una serie de módulos necesarios para el diseño de circuitos y procesamiento de señales, podemos realizar la conversión de señal de sonido a señal de pulso.

Al igual que DVS, los datos de salida de DAS también son una señal de flujo de eventos, que debe reflejar si la intensidad del cambio de energía de la señal en un canal supera el umbral. Un paquete de datos de eventos incluirá:

  • el canal que emitió el evento
  • polaridad
  • marca de tiempo

Tomando el trabajo de Shih-Chii como ejemplo, el DAS tiene entrada de dos canales, 64 canales (cada canal aplica 32 filtros de paso de banda), las señales de los dos canales se emparejan entre sí en el evento, hay polarización controlada digitalmente y micrófono en chip, y puede proporcionar directamente una interfaz AER al chip similar al cerebro. El consumo total de energía es de solo 18-26 mW.

inserte la descripción de la imagen aquí
Figura: Respuesta del DAS -- declaración "El veloz zorro rojo saltó sobre el perro perezoso"

Aplicaciones de sensores similares al cerebro

De hecho, además de estos dos tipos de señales, visión y sonido, la detección basada en eventos también ha demostrado ser factible y eficiente en varios otros campos de señales, como señales IMU, EEG, ECG, etc. Entonces, ¿cuáles son las aplicaciones de estos nuevos sensores?

Tomando DVS como ejemplo, los estudiosos de la investigación científica han demostrado sus grandes perspectivas de aplicación.

  • Por ejemplo, utilizando la información DVS y la fusión de información de la cámara RGB de baja velocidad de cuadro actual, podemos reconstruir un sistema de cámara de bajo costo que puede generar una velocidad de cuadro ultra alta (eliminación de borrosidad).
    inserte la descripción de la imagen aquí
    Figura: Desenfocado DVS

  • Aplicación de cámara de eventos para realizar la evitación de obstáculos de alta velocidad de UAV

inserte la descripción de la imagen aquí
Figura: UAV esquivando a alta velocidad

  • Algunas tareas complejas en escenarios de aplicación de robots y conducción autónoma como SLAM, reconocimiento de objetivos, estimación de flujo óptico, etc.
    inserte la descripción de la imagen aquí
    Figura: Estimación de flujo óptico DVS

  • Incluso mire la luna con un telescopio astronómico ~
    inserte la descripción de la imagen aquí
    Imagen: Aplicación de DVS en misiones astronómicas

Para DAS, con el algoritmo de red neuronal back-end correspondiente, podemos lograr varias tareas de voz con bajo consumo de energía, tales como:

  • Localización de la fuente de sonido, estimando la dirección y posición de la fuente de sonido a través de la diferencia de fase generada directamente por los dos canales
  • Reconocimiento de huella de voz, para determinar la
    inserte la descripción de la imagen aquí
    imagen individual del audio: Verificación del hablante

por fin

Aquí tenemos que volver al término amplio de tecnología similar al cerebro. Como vanguardia de todo el cálculo: el nivel de eficiencia de detección y el grado de coincidencia de la señal de detección y el modo de computación de back-end afectarán inevitablemente el rendimiento de todo el sistema inteligente. El cuerpo completo de tecnología inspirada en el cerebro = detección impulsada por eventos + computación de chip asíncrona inspirada en el cerebro combinada con algoritmos que utilizan de manera eficiente mecanismos asíncronos. El mecanismo de computación asincrónica de la red neuronal de pulso es naturalmente compatible con estos sensores de liberación. Ya podemos ver algunas empresas emergentes que utilizan tecnología inspirada en el cerebro para realizar chips inteligentes integrados de computación de sensores a nivel de mW. Creo que en un futuro cercano. , podemos ver Estas tecnologías emergentes de detección y computación están a nuestro alrededor.

Referencia:

[1] https://en.wikipedia.org/wiki/Event_camera
[2] https://spectrum.ieee.org/prophesees-eventbased-camera-reaches-high-solution
[3] https://inilabs.com /products/dynamic-audio-sensor/
[4] https://www.youtube.com/watch?v=Ik0-1yjERCw
[5] https://inivation.com/buy/
[6] https://zhuanlan .zhihu.com/p/530995025

Premio Misha Neuromórfico : https://www.mahowaldprize.org/
Instituto de Neuroinformática de Zúrich : http://www.ini.uzh.ch/

Supongo que te gusta

Origin blog.csdn.net/Yannan_Strath/article/details/126799956
Recomendado
Clasificación