Un nuevo hito en el campo de la interfaz cerebro-computadora: habla mental, interpretación automática

https://mp.weixin.qq.com/s/fyXVvmpl_12sS-khxuYcPQ

By 超神经

场景描述:利用神经网络将人说话时,相应大脑区域的神经信号进行解码,然后使用循环神经网络将信号合成为语音,可帮助语言障碍患者解决语言沟通问题。

关键词:循环神经网络 解码器 脑机接口 语音合成

La "lectura de la mente" realmente puede realizarse.

Hablar es algo poco común para la mayoría de las personas. Sin embargo, todavía hay muchas personas en el mundo que padecen estas enfermedades: ictus, traumatismo craneoencefálico, enfermedades neurodegenerativas como la enfermedad de Parkinson, la esclerosis múltiple y la esclerosis lateral amiotrófica (ELA o enfermedad de Lou Gehrig). Y así sucesivamente, a menudo pierden la capacidad de hablar y es irreversible.

Los científicos han estado trabajando arduamente para restaurar las funciones humanas y la reparación de los nervios. La interfaz cerebro-computadora (BCI) es un área clave.

La interfaz cerebro-computadora se refiere a la conexión directa creada entre el cerebro humano o animal y el equipo externo para realizar el intercambio de información entre el cerebro y el equipo.

Un nuevo hito en el campo de la interfaz cerebro-computadora: habla mental, interpretación automática
El "cerebro" en la interfaz cerebro-computadora se refiere al
cerebro o al sistema nervioso de las formas de vida orgánicas , no solo al cerebro.

Pero parece que la interfaz cerebro-computadora siempre ha sido un concepto distante. Hoy, el artículo "Síntesis de voz a partir de la decodificación neuronal de oraciones habladas" ("Síntesis de voz a partir de la decodificación neuronal de oraciones habladas") publicado en la principal revista académica "Nature", nos permite ver que la investigación en el campo de la interfaz cerebro-computadora ha dado un paso adelante. Paso.

La difícil situación de las personas con trastornos del lenguaje

De hecho, la investigación sobre las interfaces cerebro-computadora se ha realizado durante más de 40 años. Pero hasta ahora, la aplicación clínica más exitosa y popular son solo las técnicas de reparación sensorial, como los implantes cocleares.

Hasta ahora, algunas personas con severas barreras lingüísticas todavía solo pueden usar dispositivos de asistencia para expresar sus pensamientos palabra por palabra.

Estos dispositivos de asistencia pueden rastrear movimientos muy sutiles de los músculos oculares o faciales y deletrear palabras y oraciones basándose en los gestos del paciente.

El físico Hawking, una vez instaló un dispositivo de este tipo en su silla de ruedas.

Un nuevo hito en el campo de la interfaz cerebro-computadora: habla mental, interpretación automática
Hawking utiliza un sintetizador de voz para "hablar". Ha utilizado muchos conjuntos de sistemas de comunicación auxiliares.

En ese momento, Hawking se basó en los movimientos musculares detectados por los rayos infrarrojos para emitir comandos, confirmar las letras escaneadas por el cursor de la computadora y escribir el texto que quería. Después de eso, use el dispositivo de conversión de texto a voz para "decir" las palabras. Es con la ayuda de estas tecnologías negras que podemos ver su libro "Una breve historia del tiempo".

Sin embargo, generar texto o voz sintetizada con un dispositivo de este tipo no solo es laborioso, sino que también es propenso a errores, y la velocidad de síntesis es muy lenta, por lo general permite hasta 10 palabras por minuto. Hawking ya era rápido, pero solo podía deletrear entre 15 y 20 palabras. El habla natural puede alcanzar de 100 a 150 palabras por minuto.

Además, este método también está muy limitado por la propia capacidad de ejercicio físico del operador.

Para resolver estos problemas, el campo de la interfaz cerebro-computadora ha estado estudiando cómo interpretar directamente las señales eléctricas correspondientes de la corteza cerebral en el habla.

La red neuronal interpreta las señales cerebrales para sintetizar el habla

Hoy, este problema ha marcado el comienzo de un gran avance.

Edward Chang, profesor de neurocirugía en la Universidad de California, San Francisco, y sus colegas en el artículo publicado "Síntesis de voz para decodificación neuronal de oraciones habladas", propusieron que la interfaz cerebro-computadora que creó puede decodificar las señales neuronales generadas cuando las personas hablan y sintetizarlas en voz. El sistema puede generar 150 palabras por minuto, lo que se acerca a la velocidad normal del habla humana.
Un nuevo hito en el campo de la interfaz cerebro-computadora: habla mental, interpretación automática

El primer autor del artículo, Gopala Anumanchipalli, sostiene un conjunto
de electrodos intracraneales ejemplares utilizados para registrar la actividad cerebral en el estudio actual.

El equipo de investigadores reclutó a cinco pacientes con epilepsia en tratamiento, les pidió que dijeran cientos de oraciones en voz alta y, al mismo tiempo, registró sus señales de electroencefalograma de alta densidad (ECoG) y rastreó el centro de producción del habla del cerebro. -Actividad neuronal en la corteza sensoriomotora ventral.

Utilizando redes neuronales recurrentes (RNN), los investigadores descifraron las señales neuronales recopiladas en dos pasos.

En el primer paso, convirtieron las señales neuronales en señales que caracterizan las acciones de los órganos vocales, incluidas las señales cerebrales relacionadas con las acciones de la mandíbula, la garganta, los labios y la lengua.

El segundo paso es convertir la señal en palabras habladas y oraciones basadas en las acciones de los órganos vocales decodificados.

Un nuevo hito en el campo de la interfaz cerebro-computadora: habla mental, interpretación automática
Ilustración de los pasos de la interfaz cerebro-computadora para realizar la síntesis de voz

En el proceso de decodificación, el investigador primero decodifica las señales continuas del electrograma de las tres regiones del cerebro cuando el paciente está hablando, las cuales son registradas por electrodos invasivos.

Después de la decodificación, se obtienen 33 tipos de índices de características de movimiento de órganos vocales, y luego estos índices de características de movimiento se decodifican en 32 parámetros de voz (incluyendo tono, sonorización, etc.) y finalmente las ondas de sonido de voz se sintetizan de acuerdo con estos parámetros.

Para analizar la precisión del habla sintética con el habla real, los investigadores compararon las características de la onda de sonido del habla original y del habla sintetizada, y encontraron que el habla decodificada por la red neuronal reproducía un solo fonema en la oración original del paciente de manera bastante completa. , Y las conexiones naturales y las pausas entre fonemas.

Un nuevo hito en el campo de la interfaz cerebro-computadora: habla mental, interpretación automática
Comparación de las ondas sonoras del habla original (arriba) y las ondas sonoras del habla sintetizada (abajo)

Después de eso, los investigadores utilizaron el crowdsourcing para permitir que los internautas reconocieran el habla sintetizada por el decodificador. El resultado final es que la tasa de éxito de los oyentes que vuelven a contar contenido de voz sintetizada es cercana al 70%.

Además, los investigadores también probaron la capacidad de síntesis de voz del decodificador para el habla silenciosa. El evaluador dijo primero una oración y luego dijo la misma oración en silencio (con acciones pero sin sonido). Los resultados muestran que el espectro de voz sintetizado por el decodificador para acciones silenciosas es similar al espectro sonoro de la misma oración.

Demostración de síntesis de voz de decodificación neuronal de oraciones habladas

Hito: Retos y expectativas coexisten

"Esta investigación muestra por primera vez que podemos generar oraciones habladas completas basadas en la actividad cerebral individual", dijo Edward Chang. "Esto es emocionante. Esta es una tecnología que ya está a nuestro alcance. Deberíamos poder construir Equipo clínicamente factible ".

Un nuevo hito en el campo de la interfaz cerebro-computadora: habla mental, interpretación automática
La investigación del Dr. Edward Chang se centra en
los mecanismos cerebrales del habla, el movimiento y las emociones humanas.

El primer autor del artículo, Gopala Anumanchipalli, agregó: "Estoy orgulloso de poder utilizar la experiencia en neurociencia, lingüística y aprendizaje automático como parte de este importante hito para ayudar a los pacientes con discapacidades neurológicas".

Por supuesto, todavía existen muchos desafíos para realizar una interacción de voz de interfaz cerebro-computadora 100% síntesis de voz, como si el paciente puede aceptar una cirugía invasiva para instalar electrodos, si las ondas cerebrales en el experimento son las mismas que las de los pacientes reales, etc.

Sin embargo, a partir de esta investigación, vemos que la interfaz cerebro-computadora de síntesis de voz ya no es un concepto.

Esperando que llegue un día en el futuro, las personas con problemas del lenguaje podrán recuperar la capacidad de "hablar" lo antes posible y expresar sus sentimientos lo antes posible.

HyperNeuropedia

Redes neuronales feedforward

La red neuronal feedforward es la primera red neuronal artificial simple inventada en el campo de la inteligencia artificial. En su interior, los parámetros se propagan unidireccionalmente desde la capa de entrada a la capa de salida. A diferencia de una red neuronal recurrente, no forma un anillo dirigido hacia adentro.

Feedforward también se puede llamar hacia adelante. Desde la perspectiva del flujo de señal, significa que después de que la señal de entrada ingresa a la red, el flujo de señal es unidireccional, es decir, la señal fluye desde la capa anterior a la siguiente, hasta la capa de salida, dos de ellas cualesquiera No hay retroalimentación entre las conexiones, es decir, la señal no regresa de la siguiente capa a la anterior. Si se entiende por la relación entrada-salida, cuando entra la señal de entrada, cada capa después de la capa de entrada usa la salida de la capa anterior como entrada.

Cuando la señal entre capas en la red neuronal de alimentación hacia adelante fluye hacia atrás, o es autointroducida, llamamos a este tipo de red una red neuronal recurrente.

En una red de retroalimentación profunda, la estructura de la cadena es la conexión entre capas y el número de capas representa la profundidad de la red.
Un nuevo hito en el campo de la interfaz cerebro-computadora: habla mental, interpretación automática

Supongo que te gusta

Origin blog.51cto.com/14929242/2535451
Recomendado
Clasificación