Introducción a la aplicación e investigación del Centro de tecnología de voz de Tencent AI Lab

El décimo seminario "Going into Tencent" de "CCF Voice Dialogue and Hearing Professional Group Entering Enterprise Series Activities" concluyó con éxito el sábado pasado. Este seminario fue organizado por el profesor asociado Qian Yanmin de la Universidad Jiaotong de Shanghai e invitado al cuarto Un experto presentó los últimos logros en el campo de la voz y el diálogo de Tencent, que son:

Dr. Sudan, Director Adjunto del Centro de Tecnología de Voz de Tencent AI Lab, Dr. Heng Lu, Experto Senior en Algoritmos de Tencent AI Lab, Dr. Huang Shen, Experto en Algoritmo de Lenguaje Tencent, Shang Shidong, Director Senior de Tencent Multimedia Lab.

Entre ellos, el Dr. Sultan , subdirector del Tencent AI Lab Voice Technology Center , presentó un informe académico titulado " Introducción a la aplicación e investigación del Tencent AI Lab Voice Technology Center ", que presentó principalmente la implementación de las principales aplicaciones del Tencent AI Lab Voice Technology Center. Las múltiples direcciones incluyen el progreso de la investigación del front-end de matriz, el reconocimiento de voz, la separación de voz y la tecnología de interacción multimodal. Se prevé que PiKa, una plataforma de herramientas de tecnología de voz que estará abierta a la industria en la segunda mitad del año, y un conjunto de datos multimodales a gran escala.

Tencent AI Lab es el laboratorio de inteligencia artificial de nivel empresarial de Tencent. Se estableció en Shenzhen en abril de 2016. Actualmente cuenta con más de 100 científicos de investigación de primer nivel y más de 300 ingenieros de aplicaciones en China y Estados Unidos. Con la ayuda de la acumulación a largo plazo de Tencent de ricos escenarios de aplicaciones, big data, poder de cómputo y talentos de primera clase, AI Lab se basa en el futuro, la cooperación abierta y se compromete a mejorar continuamente la cognición, la toma de decisiones y la creatividad de la IA, y avanzar hacia la visión de "Hacer IA en todas partes". .

Tencent AI Lab enfatiza tanto la investigación como el desarrollo de aplicaciones. La investigación básica se enfoca en las cuatro direcciones principales del aprendizaje automático, la visión por computadora, el reconocimiento de voz y el procesamiento del lenguaje natural, y las aplicaciones tecnológicas se enfocan en las cuatro áreas de inteligencia artificial social, de juegos, de contenido y médica. En la dirección de la tecnología de voz, también estamos explorando activamente tecnologías de vanguardia. En los últimos años, se han publicado muchos artículos en conferencias de audio, que cubren diversas direcciones técnicas del habla. Por supuesto, algunos de ellos están cooperando con profesores universitarios.

Hemos visto que en los últimos años, la forma de interacción de voz ha seguido expandiéndose, y el contexto de desarrollo principal es relativamente claro, principalmente desde la interacción de voz de campo cercano a la interacción de voz de campo lejano, y más allá de la interacción multimodal humano-computadora. No se producen nuevas formas. Significa que los problemas de la forma original se han resuelto, pero los escenarios de aplicaciones originales aún se están expandiendo y mejorando continuamente para problemas más difíciles y complejos. Continuamos principalmente avanzando en el trabajo de investigación y aplicación a lo largo de esta línea principal. Hemos establecido una cobertura completa de toda la cadena de tecnología de interacción de voz de campo cercano y campo lejano y la implementamos hace unos 17 a 18 años.

En términos de hardware inteligente, hace entre 17 y 18 años, establecimos un sistema front-end de desarrollo propio, que cubría una variedad de tipos de matrices (incluidos 2 de trigo, 4 de trigo, 6 de trigo, en anillo, lineales y otras formas de matriz diferentes); El diseño de hardware de micrófono para las capacidades de pila completa de mejora de señal de campo lejano, activación y reconocimiento de voz y síntesis, admite una variedad de altavoces inteligentes, televisores y productos para automóviles de desarrollo propio dentro de Tencent; en términos de altavoces inteligentes: como los primeros Tencent Listening, y Los altavoces Tencent Dingdong con pantallas y las pantallas inteligentes Tencent Dingdong han obtenido la certificación L7 del Instituto de Tecnología de la Información y las Comunicaciones, lo que los convierte en uno de los productos con el mayor nivel de evaluación de inteligencia. El King Robot Speaker es un orador distintivo. No solo tiene la forma de un personaje del juego, sino que también se comunica con el fondo del juego. Puede guiar y acompañar al jugador de manera inteligente mientras juega.

En términos de televisores inteligentes: cooperamos con Tencent Video para admitir internamente el Penguin Aurora Smart Box y admitir externamente una variedad de modelos de gama alta como Sony y Philips equipados con capacidades de interacción de voz de campo lejano AI Lab en 20-21.

En términos de vehículos inteligentes, aquí hay una lista de varias formas de distribución de matrices de micrófonos para vehículos, y sus ventajas y desventajas; después de un año de pulido, hemos implementado una solución frontal de voz para vehículos llamada VoiceInCar, que tiene como objetivo la cancelación de eco del vehículo y la formación de haces de matriz de micrófonos. Algoritmo innovador. A través de diferentes configuraciones, puede satisfacer los requisitos de voz del vehículo de diferentes fabricantes de automóviles con diferentes números de micrófono, diferentes diseños de micrófonos, diferentes números de zonas de sonido y diferentes capacidades de computación de hardware. Proporciona una solución general desde la guía de diseño del proyecto, la detección del hardware del proyecto hasta los algoritmos de voz del vehículo. El centro de negocios de Internet of Vehicles ha cooperado con una gran cantidad de máquinas de carga frontal, y muchos modelos de Liuzhou Automobile, Great Wall Motor, Changan Automobile y otros fabricantes de automóviles han aterrizado sucesivamente.

Después de completar el pulido y el aterrizaje de la interacción de voz de campo lejano, nos expandimos a la investigación tecnológica y el desarrollo de la interacción multimodal humano-computadora. La interacción multimodal humano-computadora es la tendencia de desarrollo futuro. La integración de información modal múltiple puede hacer que la interacción sea más eficiente. , Más natural. Hemos implementado y perfeccionado nuevos módulos en torno a la interacción multimodal humano-computadora Después de múltiples iteraciones, estos módulos han llegado a la etapa de aterrizaje del proyecto.

La interacción multimodal se divide en dos aspectos: comprensión de entrada y presentación de retroalimentación. La parte de presentación de retroalimentación, o generación y síntesis multimodal, es actualmente un punto caliente en investigación y desarrollo de tecnología y aplicaciones industriales. Lo establecimos en 18 años. Los seres humanos digitales de IA que se centran en la generación / síntesis multimodal es nuestra dirección principal. Los seres humanos digitales de IA confían en el centro de visión, el centro de voz y el centro de pnl de AI Lab para formar una cadena de tecnología completa, que hace un buen uso de nuestras muchas capacidades de investigación básica. Y presentado a los usuarios de manera multimodal, esperamos que tenga tales elementos: para diferentes escenas de imágenes antropomórficas o de dibujos animados, renderizado de modelado de alta simulación de grado industrial, proceso de adquisición y generación flexible y liviano. Un entorno interactivo más rico, que incluye generación de escenas virtuales, realidad aumentada, realidad virtual y tecnología holográfica; síntesis de voz más natural, síntesis de voz cantada, análisis semántico de texto y generación de lenguaje natural para diferentes escenarios.

En 2019, hemos realizado una serie de avances de investigación en el campo de la interacción multimodal, incluida la tecnología de síntesis de voz Durian altamente natural, así como la tecnología líder de síntesis de labios, que puede impulsar automáticamente la forma y el movimiento de la boca a través del texto. Basándonos en esto, hemos creado diferentes tipos de humanos digitales, incluidos humanos virtuales de renderizado de alto realismo que admiten anclas virtuales bidimensionales multiemociones y multilingües, autogestionadas que admiten danza de texto y acción, y alta naturalidad creada por la renderización de redes neuronales. Persona digital de grado.

En 2020, continuaremos acelerando la aplicación de la tecnología humana digital en todos los ámbitos de la vida: incluida la exploración de la aplicación de la IA en el contenido de juegos a gran escala y la construcción ecológica de IP, y la tecnología de labios impulsada por voz / texto para implementar múltiples proyectos de juegos, incluido "Mirror" , Tianmei Wedo proyecto carácter lip-drive, etc., para mejorar la eficiencia de la producción de arte.

También lanzaremos anclajes piloto de IA con Douyu y Penguin e-sports para proporcionar a los usuarios comentarios de 24 horas, orden de canciones y otras funciones interactivas; además, hemos abierto el flujo completo de creación de letras, síntesis / conversión en tiempo real de voces cantadas e implementación inicial de tecnología de síntesis de canto. En la industria del entretenimiento, como el tema de la propiedad intelectual del rey, el H5 interactivo de Wang Junkai, etc., se ha realizado la generación en tiempo real de canto con IA y se implementará aún más en aplicaciones como la reparación de canciones K nacionales y la creación de canciones por miles de personas.

También hemos lanzado el presentador de IA las 24 horas Ai Ling en la estación B. Puedes iniciar sesión en este sitio web para interactuar con Ai Ling. Desde el lanzamiento de Ai Ling, el número de pistas ha aumentado continuamente. Actualmente, la tasa de producción es de 15 a 18 nuevas canciones cada semana. Se han admitido más de 140 canciones populares. Nuestro proceso de síntesis de voz cantada está muy automatizado y requiere muy pocos ajustes posteriores. Desde que nos conectamos durante dos meses, hemos ganado más de 20.000 fanáticos. Continuaremos perfeccionando al presentador de IA Ai Ling y explorando la interacción de IA Capacidad para realizar verificación de juego y verificación de usuario.

En términos de trabajo de investigación, hoy compartimos principalmente con ustedes nuestro trabajo reciente en varias direcciones básicas, incluyendo direcciones de tecnología de interfaz de matriz, reconocimiento de voz, separación de voz e interacción multimodal.

 1. Frente de matriz

1.1 Activación por voz

En el front-end de la matriz, primero presentamos la activación por voz. El rendimiento de la activación es la experiencia de usuario más intuitiva para evaluar el efecto del sistema de front-end. Por lo tanto, continuamos puliendo el aspecto de la activación. El principal problema de la activación por voz es la contradicción entre el bajo consumo de energía y la alta precisión. El principal desafío es la calidad de la voz en entornos acústicos complejos como el ruido y la interferencia de varias personas. Esta es una evolución de nuestra tecnología de despertador. Después de construir un despertador fijo y un sistema de despertador personalizado, hemos llevado a cabo una optimización en profundidad en torno a la combinación de matriz de front-end y modelo de despertador.

El desafío de la activación por voz es que hay mucha interferencia con el habla de las personas en condiciones ruidosas. En este momento, es imposible determinar con precisión la dirección de la voz de destino. Por lo tanto, puede ser mejor dejar que se enfoque en varias direcciones al mismo tiempo. Proponemos configurar varios haces fijos y agregar uno La señal de micrófono procesada, pero la desventaja es que necesita detectar si cada haz se despierta, por lo que aumenta la cantidad de cálculo.

En respuesta a este problema, introdujimos un mecanismo de auto-atención para integrar automáticamente los múltiples resultados obtenidos por el haz fijo. Este método no solo mejora el rendimiento del despertador, sino que también reduce la cantidad de cálculo en aproximadamente un 70% bajo la configuración del haz fijo, como se muestra en la Figura 4. Además, proponemos la optimización conjunta del modelo de activación y mejora de la red neuronal multicanal de zonas de sonido múltiple. El primero es utilizar la red neuronal para reemplazar la mejora de haz fijo tradicional. Específicamente, se basa en un modelo de mejora de la red neuronal multicanal que introduce múltiples funciones direccionales en direcciones designadas. Es decir, la función de orientación espacial, que simula el despertar y la interferencia de fondo durante el proceso de entrenamiento, de modo que el modelo pueda mejorar la señal de la fuente de sonido más cercana a cada dirección especificada, y luego el modelo de mejora multizona y el modelo de despertar se optimizan conjuntamente. Los resultados experimentales en la parte inferior derecha Se puede ver que el rendimiento general de este método es bueno, especialmente cuando la relación señal / interferencia es baja, el rendimiento de activación mejora considerablemente.

1.2 ADL-MVDR (TODO MVDR de aprendizaje profundo)

El trabajo de nuestra última red neuronal completa MVDR: la fórmula tradicional de MVDR se muestra a continuación, que necesita determinar mejor las partes de voz y ruido, por lo que la red neuronal se ha combinado parcialmente para estimar la máscara en los puntos de tiempo y frecuencia a través de la red neuronal. Para mejorar el rendimiento, aún necesita realizar la inversión de la matriz de covarianza de ruido y el cálculo de la derivada de dirección requiere pca, los cuales pueden ser numéricamente inestables, y si la matriz de covarianza se estima de manera recursiva cuadro por cuadro, El coeficiente de ponderación es una forma heurística empírica.

Proponemos un método que adopta por completo MVDR de aprendizaje profundo, utilizando rnn para reemplazar la inversión de la matriz de covarianza y las operaciones de pca respectivamente. Además, usamos el filtrado de relación compleja para reemplazar la máscara de tiempo-frecuencia para hacer que el proceso de entrenamiento sea más estable. La estimación también es más precisa.

Hemos realizado experimentos en una tarea de datos superpuestos de varios altavoces, multicanal, multimodal y más compleja, y podemos ver que en varios escenarios, como diferentes ángulos espaciales y diferentes altavoces superpuestos, PESQ, Si- Un resultado de SNR, SDR, WER. La conclusión obtenida de los resultados experimentales es que el método NN puro general traerá una distorsión no lineal grave, que no conduce a ASR, y el método MVDR general tiene un gran ruido residual; y el método ADL-MVDR que propusimos tiene un impacto significativo en todos los indicadores objetivos y WER es obviamente mejor que el método MVDR basado en máscaras ordinario, y también es significativamente mejor que el método ordinario de red neuronal pura.

 2. Reconocimiento de voz

En el sentido del reconocimiento de voz, las principales mejoras se pueden resumir a partir de dos aspectos, las pautas del marco y la estructura del modelo. El año pasado realizamos algunas mejoras en base al modelo RNN Transducer, principalmente para lograr modelos diferenciados de entrenamiento y lenguaje externo en el RNNT verificado. La introducción de, en ese momento, no había ningún artículo que informara los resultados del entrenamiento diferenciado en el modelo de transductor RNN.

2.1 Mejora del modelo RNNT

El principal problema aquí es claro para todos, es decir, existe una cierta falta de coincidencia entre los criterios de entrenamiento rnnt y el estándar de medición WER / CER final. Al mismo tiempo, el decodificador usa la fuerza del maestro durante el entrenamiento RNNT (la entrada del decodificador usa la secuencia de etiqueta real), pero la decodificación de inferencia Cuando el decodificador se basa en los símbolos generados por la decodificación anterior, el segundo problema es que los datos de texto vistos durante el entrenamiento del modelo de extremo a extremo RNNT son limitados y la capacidad de reconocimiento de palabras de cola larga es débil.

Para el primer problema, utilizamos el entrenamiento de riesgo bayesiano mínimo (MBR) para minimizar la distancia de Levenshtein esperada entre la secuencia etiquetada y el Nbest generado en línea, mientras se mantienen los criterios RNNT originales para el entrenamiento de múltiples tareas.

Para la segunda pregunta, presentamos un modelo de lenguaje externo para mejorar, incluida la introducción de una red neuronal externa o un modelo de lenguaje Ngram para la puntuación sobre la marcha cuando se decodifica la búsqueda de haces RNNT, y la generación en línea durante el entrenamiento de riesgo bayesiano mínimo (MBR). En Nbest, se introduce un modelo de lenguaje externo y la información del modelo de lenguaje externo se inyecta en el entrenamiento del modelo. Realizamos experimentos en un sistema de referencia sólido. La estructura del modelo es una estructura de modelo híbrida de TDNN y transformador. Se obtienen pruebas en ambos conjuntos de pruebas. Beneficios obvios. Continuaremos haciendo algunos intentos en el seguimiento, incluido el reconocimiento de extremo a extremo RNNT de transmisión de baja latencia, combinado con el trabajo de la segunda pasada para volver a calificar de LAS.

2.2 Estructura del modelo DFSMN-SAN-MEM

Nuestro trabajo reciente sobre la estructura del modelo se puede resumir como dos relaciones de conexión típicas para las tareas de clasificación de series de tiempo, una es RNN, como LSTM o GRU, y la otra son modelos de tipo convolución, como FSMN, TDNN, etc. La estructura de auto-atención también se puede considerar de este tipo, pero su conexión utiliza un mecanismo de atención complejo y debe procesarse en toda la oración. Las ventajas del modelo de tipo convolución son un buen paralelismo, un ajuste flexible del rango de contexto y el modelo se puede apilar más profundamente. En las aplicaciones industriales, la cantidad de datos puede alcanzar decenas de miles o incluso cientos de miles de horas de formación. En este momento, el paralelismo y la velocidad de formación son consideraciones más importantes.

Introdujimos SAN (auto-atención) en la red FSMN, realizamos muchos experimentos y exploramos una estructura de red óptima. El modelo contiene 3 bloques DFSMN-SAN, y cada bloque contiene 10 capas de modelos DFMSN y 1 capa de Atención estructura de la capa, la conclusión principal es: la estructura DFSMN-SAN que propusimos es significativamente mejor que el modelo DFSMN puro, y también mejor que el modelo SAN puro La red SAN pura es sensible a los hiperparámetros y tiene una gran cantidad de cálculo. Se pueden lograr mejores resultados intercalando la introducción de SAN en la red FSMN de alto nivel, lo que indica que las características de bajo nivel solo deben extraerse con una estructura de modelo simple e intercalando la introducción de SAN en el nivel medio y alto. Encontramos un fenómeno en el experimento del modelo SAN que debido a que SAN tiene una buena capacidad para sintetizar el contexto, cuanto más largo es el contexto utilizado, mejor es el rendimiento. Por lo tanto, una idea es cómo utilizar más información de contexto que sea más grande que la oración. Proponemos introducir más la estructura de la memoria en la capa SAN, y proponemos específicamente dos formas de hacer que el modelo utilice información más global En el experimento, en comparación con el modelo sin memoria, ha obtenido una mejora significativa adicional.

2.3 Aplicación de NAS en un sistema de reconocimiento de voz a gran escala

En cuanto a la estructura del modelo, también nos centramos en uno de nuestros trabajos recientes, que es la aplicación de NAS (búsqueda de arquitectura neuronal) en sistemas de reconocimiento de voz a gran escala. Aquí, gran escala se refiere a al menos decenas de miles de horas de datos de formación y al menos decenas de miles de horas de aplicaciones de productos industriales. Magnitud de los datos de entrenamiento. Vemos que NAS ha logrado el éxito en el campo de la visión, y su tecnología evoluciona constantemente rápidamente. Desde el marco de aprendizaje de refuerzo inicial basado en miles de GPU-DAYs hasta varios GPU-DAYs en la actualidad, la eficiencia ha mejorado enormemente. Dado que las tareas de voz son más complejas que las tareas de reconocimiento de imágenes en términos de dimensiones de entrada, número de categorías de salida y escala de muestra, nos enfocamos en la viabilidad de NAS en tareas de reconocimiento de voz, incluido el tiempo de entrenamiento de búsqueda y los recursos de memoria de video. Asequible; experimentamos con la búsqueda de la arquitectura del modelo en un pequeño conjunto de datos y luego expandimos y migramos a la capacitación en datos a gran escala.

En el método específico de NAS, DARTS propone un marco de búsqueda de estructura diferenciable. Durante el entrenamiento, los parámetros de red (parámetros de red neuronal tradicionales) y los coeficientes de estructura se aprenden al mismo tiempo. La importancia de las operaciones candidatas está determinada por los coeficientes de estructura para generar el resultado final. Red de búsqueda. Los PDART proponen un enfoque progresivo basado en DART. En los PDART, la búsqueda se divide en varias etapas, el número de capas de la red se incrementa gradualmente y las operaciones candidatas con poca importancia se eliminan al final de cada etapa para facilitar las etapas de búsqueda y evaluación de la red. Pérdida de rendimiento causada por diferentes capas.

Para la tarea de reconocimiento de voz, elegimos realizar primero una gran cantidad de experimentos de búsqueda de conjuntos de candidatos en un conjunto de datos de 150 horas como aishell-1. Una de nuestras tareas principales es lograr una mejor tasa de reconocimiento y un mejor equilibrio de complejidad del modelo. Se mejoró el espacio del candidato de búsqueda. La figura anterior muestra las estructuras de celda normal y celda de reducción obtenidas de la búsqueda final. Basándonos en esta estructura, la migramos a un gran conjunto de datos para experimentos de entrenamiento de modelos. En AIshell2, datos de 1,000 horas Los resultados del conjunto muestran que la tasa de reconocimiento se mejora significativamente, y la complejidad del modelo del modelo obtenido al mejorar la búsqueda del conjunto de candidatos también se reduce casi a la mitad en comparación con el espacio de búsqueda original.

Además, aplicamos el modelo de búsqueda NAS a decenas de miles de horas para la capacitación en una escala de datos de nivel industrial. Los datos contienen múltiples campos, diversidad de ruido, simulación de campo lejano y diferentes estilos. Profundizamos la red en función de la estructura de celda buscada , Ajuste el número de canales iniciales, el modelo general es de 32 celdas, optimización de precisión mixta FP32 / FP16, entrenamiento paralelo de tarjeta V100 24 GPU, cada época ~ 8.5 horas, el entrenamiento completo se puede completar en aproximadamente una semana, que es un rango de ciclo completamente aceptable; Puede verse que, en comparación con nuestro modelo DFSMN-SAN-MEM, el mejor diseñado artificialmente actual, ha logrado una mejora relativa del 12% al 18% en varios conjuntos de pruebas. Este es un resultado muy alentador e indica que NAS Todavía hay mucho espacio en el sistema de reconocimiento, y pronto será posible deshacerse del refinamiento manual del modelo. También introducimos una limitación de retardo de tiempo en el marco NAS para buscar una arquitectura de red adecuada para tareas de reconocimiento de transmisión.

Aquí hay una introducción a nuestra plataforma de herramientas de voz. Aunque el kit de herramientas de voz Kaldi se ha utilizado ampliamente como un conjunto completo de herramientas de voz, su parte de red neuronal sigue siendo inferior a los marcos de aprendizaje profundo convencionales en términos de flexibilidad y eficiencia; estamos comparando Combinando los marcos de pytroch y kaldi para crear nuestra propia plataforma de herramientas de capacitación, que combina la función de voz completa de Kaldi y la flexibilidad y eficiencia del marco de aprendizaje profundo convencional; esta plataforma de herramientas también es promovida por la colaboración de código abierto de la compañía y está mejorando constantemente con departamentos hermanos. Todas las direcciones, incluido el reconocimiento de voz, la síntesis de voz, el reconocimiento de huellas de voz, la separación de voz, la detección de palabras clave, etc., están integradas en esta plataforma.

Nuestra plataforma se llama PiKa, que significa la combinación de pytorch y kaldi. Pika es un animal llamado "pika" en inglés. Resulta ser una combinación de dos animales, lo que significa ligereza y flexibilidad. Planeamos abrir gradualmente la plataforma de herramientas a la industria a partir de fin de año. Sus funciones principales incluyen soporte para varios sistemas tradicionales, así como varios sistemas nuevos de extremo a extremo; sus características incluyen: enfoque en tareas chinas, reducción eficiente del ruido en línea Cargador de datos y entrenador distribuido de múltiples tarjetas y múltiples máquinas, decenas de miles de horas de verificación del rendimiento de datos a gran escala y optimización de la velocidad, la velocidad de entrenamiento es 4 ~ 5 veces mayor que kaldi, y también admite la integración de nuevos algoritmos AILab, como LSTMp (LSTM con proyección) pytorch La implementación subyacente, SpecSwap, DFSMN-SAN-MEM, etc.

 3. Separación de voces

Nuestro trabajo sobre la separación de voz es principalmente la separación de voz de un solo canal. Nos centramos en tres aspectos, uno es el desempeño de la separación de voz en sí, el otro es la promoción de la separación de voz y el tercero es mejorar el rendimiento de reconocimiento de voz separada.

3.1 Modelo de separación que combina recursividad local y atención global

El primero es mejorar el rendimiento de la separación de voz. El rendimiento aquí no solo se refiere a indicadores objetivos como SISNR, sino que también incluye complejidad computacional, porque los modelos óptimos actuales como Conv-Tasnet o DPRNN son en realidad bastante complejos en el cálculo , DPRNN es equivalente a contener 2, 30 capas de LSTM unidireccionales, un dato de aproximadamente 100 horas tardará aproximadamente una semana en entrenarse. Después de muchos experimentos, proponemos un modelo GALR (redes recurrentes localmente atentas a nivel mundial). Su punto clave es :

(1) La red neuronal recursiva se utiliza para memorizar y procesar la información en los segmentos locales de la forma de onda.  

(2) Utilice el mecanismo de atención para extraer la correlación global de señales entre segmentos y segmentos

A partir de los resultados experimentales, se puede ver que el modelo de tamaño 1.5M puede lograr el rendimiento de separación equivalente a 2.6MDPRNN; al mismo tiempo, puede reducir la memoria de la GPU en un 36.1% y la cantidad de cálculo en un 49.4%; en los datos públicos WSJ0-2mix, tiene un mejor desempeño que DPRNN bajo la misma configuración. Mejor rendimiento; en datos chinos de 2000 h, el SISNR para separar el habla objetivo es un 9% más alto que el DPRNN.

3.2 Algoritmo de aprendizaje semi-supervisado de separación de voz

Como todos sabemos, la capacidad de generalización del modelo de separación siempre ha sido un problema que la academia y la industria quieren resolver. La generalización de la separación es un problema más grave. Debido a que la combinación de varios sonidos tiene más posibilidades, puede causar más desajustes. Además, no hay forma de etiquetar eficazmente los datos que se han mezclado. MBT (Mixup-Breakdown Training) es un algoritmo de aprendizaje semi-supervisado basado en consenso que proponemos y que es fácil de implementar. Se llama método de entrenamiento de descomposición híbrida y se puede utilizar para tareas de separación de voz. MBT primero introduce el modelo de maestro promedio para predecir el resultado de separación de la señal mixta de entrada La señal mixta de entrada incluye datos etiquetados y datos no etiquetados;

Estos resultados de salida intermedia (los denominados "Desglose") se interpolan aleatoriamente y se mezclan para obtener una señal mixta pseudo "etiquetada" (denominada "Mezcla"); finalmente, optimizando la coherencia de la predicción entre el modelo del profesor y el modelo del alumno, Actualizar el modelo de estudiante. Este es el primer trabajo que hemos visto para proponer el uso de métodos de aprendizaje semi-supervisados ​​en tareas de separación de voz para mejorar efectivamente el rendimiento de generalización de escenarios de aplicación no coincidentes.

3.3 Mejorar el rendimiento de reconocimiento de voz separada

En escenarios de aplicación práctica, a menudo se requiere reconocimiento de voz. El objetivo final de la separación de voz es obtener una mayor precisión de reconocimiento, pero el proceso de procesamiento del modelo de separación inevitablemente introduce errores de señal y distorsiones, lo que empeorará el rendimiento del reconocimiento. La solución común es entrenar conjuntamente el modelo acústico y el modelo de separación de voz, en este sentido, tenemos dos conclusiones principales:

Una es que el entrenamiento conjunto se puede llevar a cabo utilizando un modelo de reconocimiento más ligero, y luego el módulo de separación optimizado conjunto se puede acoplar a un gran sistema de reconocimiento en línea, y todavía se puede obtener una mejora significativa.

El segundo es introducir un criterio de pérdida a nivel de función de fbank para la optimización multitarea, que también tiene cierto efecto en la reducción de la distorsión causada por la separación.

También propusimos otro marco de red neuronal de extremo a extremo, EAR (Extracción, adaptación y reconocimiento de nombre completo), que introduce directamente un adaptador en la separación y el reconocimiento. La función del adaptador es pasar explícitamente a través de la red neuronal para adaptarse al espectro enmascarado. Para aprender de una representación de transición de la función de reconocimiento, los resultados de la comparación con otros métodos en el conjunto de prueba muestran que el marco de la red EAR que diseñamos tiene una gran robustez y aún puede funcionar muy bien en el habla ruidosa. Se puede ver en los múltiples equipos de prueba que el modelo acústico que propusimos ha mejorado mucho en cada equipo de prueba.

Integramos la tecnología de separación de voz anterior, la aplicamos a la separación de voz de fondo y al reconocimiento de música compleja, en torno a la tarea de transcribir voz de video y generar subtítulos. Entre ellos, el ruido de la música de fondo es un problema particularmente típico. La música de fondo está muy extendida en videos cortos y tiene muy Sin embargo, el rendimiento de reconocimiento del sistema de reconocimiento de voz existente se reducirá significativamente bajo la condición de música de fondo fuerte. Mediante el uso de nuestra tecnología de separación y optimización conjunta mencionada anteriormente para entrenar en datos de voz y música de fondo a gran escala, la tasa de reconocimiento de múltiples conjuntos de pruebas de música de fondo se mejora relativamente en más del 20%, y no se necesita ningún módulo de discriminación de música de fondo. El equipo de prueba de música también puede obtener una mejora relativa del 1% al 3%.

 4. Tecnología multimodal

4.1 Separación de voz multimodal

Este es nuestro sistema de separación de voz multimodal El dispositivo de entrada es una matriz de micrófonos y una cámara.

Primero, el sistema detecta n personas, tomando a la persona en el cuadro rojo como el orador objetivo, el primer modo, la detección de rostros nos dice que el orador objetivo está en esta dirección, y el segundo modo es el punto clave del rostro. Puede decirnos la forma de los labios del hablante objetivo; en el tercer modo, si el objetivo tiene una voz registrada, puede decirnos la información de su huella de voz. En el siguiente paso, la información multimodal se puede enviar a tres redes de extracción de características para extraer la información del hablante objetivo. Esta información y las señales de voz multicanal se envían juntas a la red de separación para dar salida a la voz de la persona objetivo. Al construir este sistema, este es el primer trabajo que conocemos sobre el uso de tres modos y separación de voz. Para la estructura del modelo específico, el método de fusión modal, el algoritmo de entrenamiento conjunto, consulte nuestro documento para obtener más detalles.

Al experimentar con los resultados de diferentes combinaciones de información modal, se puede evaluar la importancia de diferentes modalidades, información de dirección, información de labios e información de huella de voz Estas tres modalidades tienen diferentes efectos en el sistema. De los resultados, en general: la información de dirección es la más fuerte, la información de labios es la más complementaria a otros modos y los tres modos son complementarios. Se puede ver que si los tres modos se usan juntos, el WER se puede reducir del 19%. Al 10%, el siguiente es un ejemplo de los tres complementos modales. Este ejemplo muestra que el uso de 3 modales puede resolver casi todos los casos de esquina, como cuando el objetivo habla de lado, solo abre la boca sin hablar, etc.

Probamos la robustez de cada modo, como el caso que Lip no pudo detectar. Usamos diferentes abandonos durante la prueba, y podemos ver que el rendimiento del sistema es relativamente robusto para Lip. Otra prueba es la solidez de la información de dirección. El error de la información de dirección aquí puede ser el error de falsa alarma causado por el reflejo de la luz del vidrio en la detección de la cara, o la dirección de la cara causada por el habla lateral, no la dirección del audio. De la curva verde oscuro, se puede ver que cuando el ángulo entre el objetivo y la interferencia es menor de 15, la información de dirección se agrega artificialmente a aproximadamente 5 grados de interferencia, y habrá una caída de menos de 0.5dB; entre el objetivo y la interferencia. Cuando el ángulo incluido es superior a 15, añadiendo artificialmente unos 5 grados de interferencia a la información de dirección, no habrá degradación del rendimiento.

Aquí comparamos el efecto de separación de dos sistemas monomodo y nuestro sistema multimodo; el primer sistema monomodo es VoiceFilter de Google; el segundo sistema monomodo es Look-into-Listen de Google; El tercero es nuestro sistema multimodal.

4.1 Reconocimiento de voz multimodal

También hemos realizado algunos trabajos ASR audiovisuales multimodales. Este es el trabajo más reciente, que combina separación multimodal + formación de haces + ASR multimodal para el entrenamiento conjunto. Esta tabla es solo una pequeña parte de nuestros resultados. Para obtener más detalles, le invitamos a echar un vistazo a los artículos que hemos enumerado. La línea de base aquí es un método común, que consiste en utilizar la dirección de la verdad básica, hacer demoras y sumar la formación de haces, y luego hacer solo audio ASR tradicional (AM es TDNN, los resultados del modelo E2E son peores, consulte el documento para obtener más detalles), la segunda línea es el ASR tradicional de separación multimodal + solo audio mencionado anteriormente, WER tiene una gran mejora del 50% , La tercera línea es el sistema de separación multimodal + MVDR + ASR audio-visual, y WER tiene una mejora relativa del 24%. Hemos propuesto un nuevo esquema de fusión multimodal ASR, que se analiza en el documento. Esto es lo que sabemos, el primer trabajo de reconocimiento de voz multicanal-multimodal.

En un futuro cercano, abriremos un conjunto de datos multimodal de 3500 horas (datos chinos de Tencent Video, etc.) para ayudar a todos a resolver el problema del cóctel. Será el mayor dato etiquetado multicanal + audio + video. Las anotaciones incluyen: transcripciones humanas de texto, etiqueta del orador, dirección de la fuente de sonido, cuadro delimitador y punto de referencia de detección de rostros, etc.

El equipo de prueba es una grabación multicanal + audio + video del entorno real utilizando nuestro equipo de desarrollo propio AILab. Este conjunto de datos puede ayudar a todos a superar y resolver los tres problemas clave en el problema del cóctel: diarización, separación y ASR.

¡Manténganse al tanto!

Las palabras clave de respuesta entre bastidores [AI Lab] pueden hacer que los invitados compartan PPT.

Cloud + Community Salon en línea Número 5

[Architecture Evolution] Se está realizando una transmisión especial en vivo

Escanee el código para programar una cita en vivo


Supongo que te gusta

Origin blog.csdn.net/Tencent_TEG/article/details/108570724
Recomendado
Clasificación