Aplicación y desafíos de los algoritmos de reducción de ruido de llamadas en teléfonos móviles y dispositivos IOT

Con la actualización de los productos electrónicos, los usuarios tienen requisitos cada vez más altos para la calidad de las llamadas. El algoritmo de reducción de ruido de llamadas juega un papel clave en la calidad de la llamada. La mejora de los recursos informáticos ha permitido que los modelos de aprendizaje profundo se ejecuten en chips portátiles de bajo consumo, y la reducción de los costes de los dispositivos ha permitido que los dispositivos IoT empiecen a utilizar sensores de conducción ósea ¿Cómo se pueden combinar el aprendizaje profundo y los algoritmos tradicionales? ¿Cómo aprovechar al máximo el sensor de conducción ósea? ¿Cómo traducir los resultados de las pruebas objetivas en una experiencia de usuario real? Este es también un nuevo desafío para los algoritmos de llamadas en la nueva era. LiveVideoStackCon 2022 Beijing Station invitó al profesor Wang Linzhang a compartir con nosotros la aplicación y los desafíos de los algoritmos de reducción de ruido de llamadas en teléfonos móviles y dispositivos IOT.

Texto/Wang Linzhang

Organizar/LiveVideoStack

Buenos días chicos. El tema que compartiré hoy es: la aplicación y los desafíos de los algoritmos de reducción de ruido de llamadas en teléfonos móviles y dispositivos IoT.

5d2950ef9eed3469ef4604ed78ba9295.png

Echemos un vistazo a los datos de la Oficina Nacional de Estadísticas, en 2021, el tiempo de llamada nacional será de 456 millones de minutos, básicamente un promedio de al menos 10 minutos de tiempo de llamada por persona por día.

ec37273166c43102d1e507642e2d7ecb.png

El número de teléfonos móviles también es muy grande, con 1.856 millones de teléfonos móviles a finales de 21. Si China tiene una población de 1.400 millones, puede haber más de 400 millones de personas con dos teléfonos móviles.

Los datos de envíos de teléfonos inteligentes en 21 años fueron de 1300 millones de unidades, y el volumen de datos en 2022 disminuyó a alrededor de 1100 millones de unidades.

dba5cc621cb334916e1a443587163f0c.png

Luego está el envío de auriculares TWS, alrededor de 350 millones de unidades en 2022, y también está creciendo constantemente, por lo que este algoritmo también funciona sin parar.

9cfbcdd552e563ddfe8c58025f8cd0ba.png

Hoy, hablaré sobre el estado del algoritmo de reducción de ruido de llamadas desde cinco aspectos:

En primer lugar, el método de evaluación del algoritmo de reducción de ruido de llamadas, ¿qué tipo de algoritmo es el mejor algoritmo? En segundo lugar, la introducción de fondo del algoritmo de reducción de ruido de llamadas. Finalmente, se presentan los desafíos que enfrenta el algoritmo de reducción de ruido de llamadas, la práctica de implementación y la perspectiva futura.

-01-

Método de evaluación del algoritmo de reducción de ruido de llamadas

835f6589e37malof28c2fcb361ba6cc03.png

Primero introduzca: qué es el habla y qué es el ruido.

Generalmente dividimos el habla en dos categorías: sorda y sonora. El sonido sordo generalmente se refiere a la ausencia de cuerdas vocales; el sonido sonoro se refiere a que las cuerdas vocales son pronunciadas. Del espectro de la figura, los sonidos sonoros tienen muchos tonos y armónicos fundamentales, y los sordos casi ninguno, como el ruido blanco. Sordo y sonoro no se refieren a una palabra, pero hay una diferencia entre sordo y sonoro en una sílaba.

Hay muchos tipos de ruido. Los ruidos comunes incluyen el ruido de la carretera, el ruido del metro y el ruido de la construcción. También hay algunos ruidos especiales, como el ruido del viento y el ruido de resonancia, porque estos ruidos plantean un mayor desafío para el algoritmo, por lo que se enumeran como ruidos especiales.

Con respecto a la clasificación del ruido, desde un punto de vista algorítmico, los algoritmos tradicionales pueden manejar bien el ruido estacionario general.

Según las características del espacio, se puede dividir en ruido direccional y ruido de campo difuso, que generalmente son procesados ​​por algoritmos de matriz.

Además, según el ancho de la banda de frecuencias, se divide en ruido de banda estrecha y de banda ancha. Hay sonidos sordos y sonoros marcados en la imagen. Los sonidos sonoros tendrán componentes armónicos relativamente claros; los sonidos sordos son como el ruido blanco, que se encuentra en un estado relativamente estable.

1fdcff0d12fa6d251888283d35a72452.png

Comprendamos aproximadamente el alcance del ruido. En la vida, como en una sala de conferencias, si no habla, puede haber una escena de ruido de 40 a 80 dB. En la carretera, si pasa un coche, generalmente es de 70 a 80 dB. Si estás en el metro, el ruido del estruendo del metro puede alcanzar los 90 dB. El ruido en bares y KTV puede alcanzar los 100 dB. Los motores de los aviones son aún más ruidosos, quizás de 110 a 130 dB.

El siguiente artículo te dará algunas sugerencias para ver qué tipo de escena de ruido es más dañina para nosotros.

Permítanme hablar sobre el rango de nivel de presión de sonido del habla. Generalmente, el susurro es de 50 dB y el habla normal puede ser de 60 dB, sin incluir el uso de altavoces. Si usa un altavoz, el sonido ronda los 100 dB. Los ruidos fuertes son generalmente de 80dB, y los de los cantantes suelen rondar los 90dB, pero los más altos pueden alcanzar los 130dB.

El gráfico de la izquierda muestra qué tipo de ruido nos afecta más. De hecho, en el caso de 130dB, solo necesitamos permanecer en este entorno durante dos minutos, luego la audición puede dañarse y es posible que no se restablezca.

Luego mire el estado de la audición en KTV. El ruido en KTV es de aproximadamente 100 dB. Si permanece en este entorno durante dos horas o más, su audición se dañará y este daño no se puede recuperar. de.

Entonces, me gustaría darte una sugerencia: no te quedes en KTV por mucho tiempo, dos horas son suficientes, y si pasas más de dos horas, puedes tomar un descanso para proteger tu audición.

04de55bc63c9ca5bf128d8a3a2d5cfe1.png

Echemos un vistazo a cómo sería si las orejas estuvieran dañadas. Aquí hay un dato que se puede escuchar claramente en condiciones normales de reproducción. En el caso de 1000 Hz, si el sonido que se reproduce normalmente no se puede escuchar con claridad y debe aumentarse a unos 20 dB para escuchar con claridad, entonces los oídos se han lesionado gravemente. En este momento, según los datos de la medicina china, en un entorno de 4000 Hz, puede que haya que aumentar a 70-80 dB para oír con claridad. Entonces, si el oído está lesionado, el sonido puede ser muy amortiguado al principio. Permítanme enfatizarles a todos que la protección auditiva sigue siendo muy importante.

f7c6e0b40e6a6fa3877e7ff6f7fb1c5d.png

¿Cómo regulan los estándares internacionales los parámetros de reducción de ruido de llamadas?

La ITU publicó una serie de parámetros, porque estamos haciendo reducción de ruido de llamadas, por lo que estamos más preocupados por el protocolo P800, que es un estándar para muchas evaluaciones de reducción de ruido de llamadas. Si está interesado, puede encontrar el texto original para leer.

También hay una serie de estándares como P830 y 805, la mayoría de los cuales son códecs para audio y voz, y se utilizan para juzgar la calidad del audio.El habla también dañará la calidad de los códecs, por lo que también hay algunos estándares para regular este.

La primera imagen a la derecha es la evaluación de la relación señal-ruido sobre la inteligibilidad por parte de los profesores de la Universidad de Tianjin. Descubrimos que cuando la relación señal-ruido es de 0 dB, la inteligibilidad es básicamente de alrededor del 50 %. Cuando la relación señal-ruido es superior a 0, si supera los 10 dB, la inteligibilidad está por encima del 80 % de 80 dB, por lo que la inteligibilidad en este momento es relativamente buena. Cuando la relación señal-ruido es inferior a -5dB, la inteligibilidad es muy pobre.

3cdc02833750f38d3f5ae814292e3c05.png

Tenemos algunos requisitos de llamadas y comentarios que serán más estrictos. Durante las pruebas, llevamos a cabo inspecciones estrictas. Por ejemplo, se requiere el tiempo de llamada del teléfono móvil durante la prueba, como llamar durante una hora o dos horas, y el algoritmo se puede mantener funcionando de manera estable en diferentes entornos. Además, cuando cojamos el móvil, bloquearemos el micrófono de la parte inferior, en este momento no podremos hablar aunque estemos hablando, porque el micrófono de la parte inferior está bloqueado y no se puede transmitir el sonido. Este es nuestro propio requisito de prueba.

Acabo de mencionar un estándar de comunicación importante, es decir, P800 en el estándar ITU. Este estándar generalmente se califica en una escala de cinco puntos. En el proceso de desarrollo de algoritmos, por lo general no podemos alcanzar completamente el nivel de 4 a 5 puntos, porque este requisito es muy alto. Por lo tanto, apuntamos principalmente a una puntuación de 3 o 4, que suena muy claro, pero puede haber algo de ruido.

Por supuesto, si la puntuación está entre 1 y 2 puntos, esto es básicamente inaceptable; mientras que la puntuación entre 2 y 3 puntos está bien, lo que significa que la comunicación aún se puede llevar a cabo, pero puede haber algún retraso. Por lo tanto, en malas situaciones, también puede haber 2 o 3 puntos, lo que puede garantizar que se pueda realizar la llamada, pero la calidad del sonido puede no ser muy buena.

8d3a9a27cf35ed887d92312ed7eadc8c.png

Aquí, enumero específicamente los parámetros específicos. Cuando realizamos un entrenamiento de modelos de aprendizaje profundo, normalmente prestamos atención a las puntuaciones PESQ y STOI, que son evaluaciones subjetivas de inteligibilidad a corto plazo. Por ejemplo, la tercera puntuación TMOS, que evalúa la calidad de la voz que recibe el otro interlocutor tras utilizar el móvil para realizar una llamada sin ruido. Es posible que tenga una pregunta, es decir, si realiza una llamada sin ruido, la voz transmitida debería ser muy buena y, en teoría, debería ser muy buena. Sin embargo, hemos descubierto que los algoritmos pueden corromper el habla o causar interrupciones durante la transmisión. Por lo tanto, TMOS es una evaluación de la situación en la que no hay ruido en el proceso de transmisión y el habla no se daña. A continuación, veamos NMOS y SMOS, que evalúan el habla en entornos ruidosos. Lo que NMOS evalúa es cómo suprimir el nivel de ruido después de realizar una llamada telefónica en un entorno ruidoso. Cuanto más reprimida, mayor es la puntuación de NMOS. Lo que SMOS evalúa es qué tan garantizada está la transmisión de voz después del enlace después de realizar una llamada en un entorno ruidoso. Cuanto mejor sea la seguridad del habla, mayor será la puntuación.

Por lo tanto, parece que las puntuaciones de SMOS y NMOS son algo contradictorias, porque cuanto mayor sea la supresión, más se dañará el habla, y si se requiere que la voz sea muy buena, es posible que el nivel de reducción de ruido no cumpla con los requisitos objetivo. . Por lo tanto, existe una puntuación compuesta denominada puntuación GMOS. La puntuación GMOS combina las puntuaciones SMOS y NMOS para llegar a un único resultado.

TMOS, SMOS, NMOS y GMOS son varios parámetros que son muy importantes al evaluar la calidad de la llamada. En la actualidad, hay algunas tendencias en las que las personas aún no confían en GMOS. Por ejemplo, el método de evaluación adoptado por Xiaomi es usar el valor promedio de SMOS y NMOS como estándar de evaluación en lugar de GMOS.

ba91cb48df900ecfefd159eea491b6e6.png

La evaluación de llamadas de Xiaomi se lleva a cabo en una sala completamente anecoica.Actualmente, todas las llamadas se evaluarán en dicha sala anecoica. El sistema de restauración de ruido tiene 6 altavoces, rodeados de 6 altavoces para restauración de ruido. Nuestros teléfonos están equipados de serie, incluida la distancia desde la boca hasta el altavoz y la distancia desde el oído hasta el auricular. Este es nuestro sistema de prueba de evaluación estándar.

-02-

Introducción a los conceptos básicos de los algoritmos de reducción de ruido de llamadas

d750a3d11898ddda4c844dcb8f07aecf.png

Después de presentar la evaluación de llamadas de voz, continuamos discutiendo la tecnología del algoritmo.

Primero, echemos un vistazo al proceso de desarrollo del algoritmo de reducción de ruido de llamadas. Como muy pronto, todos pueden conocer los primeros algoritmos, como la sustracción espectral y la estimación de ruido. Se utilizarán métodos similares en el procesamiento de datos posterior, como el algoritmo del modelo de mezcla gaussiana (GMM) y el algoritmo subespacial. En la actualidad, también estamos utilizando la matriz método de descomposición Tal como IV.

Desde 2013, el aprendizaje profundo ha ejercido una gran capacidad en el campo de la reducción de ruido, especialmente en la supresión de estados no estacionarios. Los primeros métodos se basaban en curvas de enmascaramiento y enmascaramiento espectral, y luego se actualizaron gradualmente y apareció un método complejo basado en mapas espectrales.

c57690f95ce14bcdd142a66ee84259e3.png

Actualmente, utilizamos una combinación de aprendizaje profundo y métodos tradicionales para eliminar el ruido. Creo que la tendencia futura puede ser adoptar métodos de reducción de ruido multimodales y entrenar modelos supergrandes. Este método de reducción de ruido puede estar relacionado con el popular modelo GPT actual y la salida de modelos supergrandes.

efebaeea00b3bc4f59960866b59b6cf5.png

En el campo de la reducción del ruido de las llamadas, de 2012 a 2013, la introducción del aprendizaje profundo puede considerarse un hito. Dos de ellos son de gran importancia: uno es un artículo de Stanford, que mejora la robustez al suprimir el ruido en el reconocimiento de voz, el otro es que en 2013, el Sr. Wang Deliang introdujo un método de aprendizaje automático en la separación de voz.

fdb0b3f8474ce72530b0e621c862e341.png

He enumerado los artículos más clásicos sobre la reducción del ruido de llamadas en la imagen. Aquí hay un proceso: qué método usamos para la reducción del ruido de voz en los primeros días y luego mejoramos gradualmente su efecto.

En la etapa inicial, Xu Yong citó un método llamado "Dense" en la investigación de reducción de ruido, es decir, la capa lineal, que logró un buen efecto de reducción de ruido. Este es un artículo que logró un buen efecto de reducción de ruido en la etapa inicial. escenario. Sin embargo, esta capa "densa" es computacionalmente costosa y algo ineficaz porque lo que aprende se parece a las leyes estadísticas.

Por lo tanto, a partir de 2016, Qualcomm introdujo una red convolucional llamada "CN" en su investigación. La ventaja de la red convolucional es que puede aprender la información espectral entre los dominios de frecuencia, por lo que tiene mejores resultados.

En 2018, también vale la pena mencionar dos artículos. Uno es un modelo recursivo basado en RNN propuesto por el Sr. Li Jinhui cuando presentó LSTM, y el otro es una solución familiar de RNN, cuyo código de referencia está disponible en línea. Su modelo tiene un cálculo muy bajo, pero trae muy buen efecto de eliminación de ruido. Utiliza ideas tradicionales de reducción de ruido, incluidos modelos de reducción de ruido y procesos de filtrado de árboles. Estos detalles son más complicados, pero en general, este artículo proporciona una referencia valiosa para todos los que se encuentran en la etapa inicial.

Junto con la investigación sobre aprendizaje profundo, en ICASSP 2020 hay una competencia de reducción de ruido. Profesores de la Universidad Politécnica de Northwestern desarrollaron el modelo DCCRN, y el efecto es sorprendente: ganó el primer lugar en la competencia de 2020.

En la competencia de 2021, el equipo del profesor Li Xiaodong del Instituto de Acústica propuso un modelo de reducción de ruido por etapas, que funcionó mejor en el caso de la reverberación y ganó el primer lugar.

Por lo tanto, en general, la dirección de desarrollo es de DNN a CNN, luego a RNN y luego se desarrolla más en un modelo DCCRN de aprendizaje profundo más complejo.

38747d325a40d6c5aedec58e95cd7146.png

Aquí me gustaría mencionar nuestro propio trabajo. Lo que he presentado antes es el trabajo de otros profesores en la investigación de reducción de ruido, y hemos hecho una mejora simple en este campo. En la introducción anterior a la situación del habla y el ruido, se mencionó que además de la frecuencia fundamental y los armónicos, el habla también puede tener conceptos como formantes. Por lo tanto, creemos que no es necesariamente necesario realizar convoluciones en todo el espectro de frecuencias en la capa convolucional. Probamos una forma mejorada de convolucionar solo la parte de interés de baja frecuencia y luego convolucionar la parte de interés de alta frecuencia.

d4ba82c5f1279a97833e5060b27503ca.png

Los datos sin procesar aquí son un llanto de bebé. El llanto de un bebé es muy similar a la voz humana, con una frecuencia y unos armónicos fundamentales, por lo que es muy difícil desruirlo.

Escuchemos nuevamente la salida cuando usamos el modelo pequeño, el sonido puede sonar un poco apagado porque se retuvieron algunos llantos de bebés durante el proceso de convergencia.

Mirando los resultados del modelo grande entrenado, básicamente puedes escuchar que el modelo grande suprime muy bien el llanto de los bebés. La claridad de la voz también está bien, básicamente puedes escuchar claramente. De acuerdo con la puntuación MOS mencionada anteriormente, se estima que la puntuación del modelo grande debe rondar los 3 puntos, mientras que el modelo pequeño puede ser de más de 2 puntos.

Este es un concepto básico. Una vez que finaliza el contenido del aprendizaje profundo, debemos analizar los algoritmos tradicionales, porque los algoritmos tradicionales aún juegan un papel importante en el campo de la reducción del ruido de las llamadas.

9eaae477a9647b467d6137a7c772a46e.png

Este es el proceso de generación de eco: hay un altavoz que emite un sonido, el sonido viaja a través de la ruta y, si no es procesado por el algoritmo en el cuadro amarillo a continuación, el sonido ingresará al oído a través del micrófono.

29543f3cbc3feb3dd36a0ea47fc2a8ac.png

En el algoritmo de cancelación de eco, se adopta el método iterativo de Newton en la etapa más temprana, que es un método simple para calcular iterativamente el factor W a través del error y el gradiente. Sin embargo, existen algunos problemas con este método, como por ejemplo, cómo manejar ecos dobles, entornos compartidos, cómo determinar la longitud del filtro, la velocidad de convergencia y problemas no lineales.

Así que he enumerado algunas sugerencias simples. Por ejemplo, al diseñar un filtro, teniendo en cuenta el complejo entorno de reverberación, no es necesariamente necesario utilizar un filtro muy largo, y se pueden utilizar otros métodos.

9404bd136a043d47385c1d6bacddd268.png

Además, en cuanto a AEC, también existen métodos que utilizan redes neuronales, que tienen la ventaja de una mejor fidelidad del habla. Actualmente hay dos métodos, uno es dejar que la red neuronal aprenda todo el proceso, ingrese los datos del micrófono y la señal de referencia en la red, y deje que la red aprenda y procese la supresión de eco por sí misma; el otro método es proporcionar el resultado del algoritmo tradicional junto con la señal de referencia a la red neuronal para su procesamiento. Estos dos métodos tienen sus propias ventajas, pero el cálculo de la red neuronal es muy grande. En comparación con el método tradicional, el problema del cálculo es difícil de aceptar para nosotros.

Por lo tanto, también estamos considerando la cuestión de integrar el efecto de reducción de ruido en la supresión de eco. Estamos tratando de hacer esto al tener una red neuronal que maneja tanto la supresión de eco como la reducción de ruido.

038ff958457ad1c3012ef861d1bb0a16.png

En 2022, participamos en el AEC Challenge de ICASSP. Publicamos algunos artículos relacionados y logramos buenos resultados. Especialmente en el caso de una baja relación señal-respuesta, como -5dB o incluso -50dB, nuestro método aún puede lograr buenos resultados. Usamos algunas tecnologías populares, como Transformer, que es un modelo de red neuronal. Sin embargo, debido a su gran cantidad de cálculo, solo se han hecho algunas demostraciones y no se ha aplicado. Además, con respecto a AEC, también puede involucrar algunos algoritmos de matriz, que son adecuados para aplicaciones de teléfonos móviles y aplicaciones IOT.

47becc6fa3a0807324c1dda2e41be113.png

Los algoritmos de matriz se utilizan principalmente para lograr la supresión de señales direccionales, incluidos algunos algoritmos comunes, como GSC, MVDR, GEV, etc. El objetivo principal de estos algoritmos es encontrar la relación entre el conjunto de micrófonos y la dirección de la fuente de sonido. El proceso de derivación específico se puede encontrar en materiales relevantes.

A través del algoritmo de matriz, podemos obtener la relación entre la posición de la matriz de micrófonos y la dirección de la fuente de sonido. El beneficio de esta derivación es que da una idea de cómo cada micrófono ve cómo difiere la señal.

c0bbd49fc6b6c6d94a9da02c60c8d373.png

El proceso de derivación del algoritmo de matriz implica etiquetar las señales recibidas de la matriz y determinar la matriz de dirección del objetivo. En el proceso de derivación, se pueden utilizar algoritmos de matrices simples como el algoritmo CBF. La idea básica del algoritmo CBF es determinar el estado óptimo comparando las señales recibidas por cada micrófono, que es el proceso más simple del algoritmo CBF.

5e4d14619529a16ae77aed9de71aed9d.png

Lo más importante que estamos haciendo aquí es determinar la diferencia en la señal recibida entre los dos micrófonos. Quizás el más crítico de estos factores es la diferencia de latencia. Si bien toda la derivación puede ser bastante compleja, calcula el efecto del retardo en ambos micrófonos.

2c7b21e7ecc818e3a70af313a712d3cf.png

CBF es solo una derivación teórica y MVDR es el algoritmo que realmente usamos. La idea principal del algoritmo MVDR es garantizar la corrección del bit de dirección a través de restricciones y utilizar el operador lagrangiano para minimizar la función objetivo y maximizar la señal objetivo, mientras se minimizan las señales de ruido en otras direcciones.

eb74cb93fdabbb20660308bd54fc39e1.png

Para los problemas de eliminación de ruido de un solo canal, los primeros enfoques se basaban en la estimación de energía. Al calcular la energía de la señal sobre la banda de frecuencia y rastrear el mínimo, si el mínimo es distinto de cero, entonces se considera ruido en esta plataforma.

En nuestra aplicación práctica, encontramos que el cálculo de la energía uniforme tiene una gran influencia en los resultados. Aquí se puede ver que el factor Alfa tiene una gran influencia en la precisión de la estimación del ruido.

45ca2c3e6a41ddfea3157fa08050413a.png

Sobre esta base, la actualización de reducción de ruido de un solo canal propone un método de evaluación iterativo basado en la relación señal-ruido y obtiene un mejor efecto de reducción de ruido al juzgar la suavidad y la mejora.Esta es una actualización iterativa en el algoritmo tradicional.

-03-

Los desafíos de la cancelación de ruido de llamadas

Veamos nuevamente los desafíos que enfrenta el algoritmo.

Cuando aplicamos teléfonos móviles, IOT y otros dispositivos, el mayor problema al que nos enfrentamos son los recursos informáticos. Debido a que es diferente al anterior, solía ser un algoritmo tradicional con capacidad de cómputo limitada. Pero ahora hay un modelo de aprendizaje profundo. Los modelos de aprendizaje profundo han logrado un progreso notable en el campo de la reducción del ruido del habla. La eficacia de estos modelos está relacionada con el tamaño del modelo, y los modelos más grandes pueden aprender más. Si quieres conseguir mejores resultados, la clave está en asegurar suficientes recursos informáticos, por lo que esto también depende del desarrollo continuo del hardware.

3089dc7e5b6e34589cac2da901370d06.png

Si bien los recursos de cómputo en la computadora son relativamente suficientes, en dispositivos portátiles (como los relojes Xiaomi SE), es necesario optimizar continuamente los algoritmos en el teléfono móvil para que puedan aplicarse a relojes y auriculares.

834a7126773ab4fd336d87c7055722a6.png

Por ejemplo, en una computadora, no importa si el recurso de memoria es más de 1M. Sin embargo, en un teléfono móvil, los recursos disponibles son relativamente limitados y es posible que solo haya unos pocos cientos de K de memoria disponibles para su uso. En los dispositivos IOT, generalmente solo se pueden asignar alrededor de 100 K de memoria. Así que es un gran desafío.

32c811c52a3dd48e13e3da27208c82d9.png

Hay algunos desafíos en el uso de un teléfono móvil, uno de los cuales se refiere al micrófono. Muchas personas sujetan el teléfono por ambos extremos cuando juegan, lo que bloquea el micrófono. Si necesita comunicarse con sus compañeros de equipo mientras juega, pero el micrófono está bloqueado, la otra parte no puede escuchar el sonido. Por ello, nos enfrentaremos a algunos retos, como por ejemplo cómo solucionar el problema del bloqueo del micrófono.

En 2020, Xiaomi ha popularizado los teléfonos móviles con funciones estéreo, hay sonidos de parlantes en ambos extremos del teléfono, por lo que la distancia entre el sonido y el micrófono es muy cercana. Esta corta distancia hace que la relación señal-retorno sea muy baja e incluso puede alcanzar una relación señal-retorno ultrabaja de -30dB.

En las pruebas, también encontramos problemas con la cancelación de eco adaptable (AEC) en algunos entornos hiperreverberantes. El equipo de prueba sostendrá el teléfono móvil en una sala de vidrio cerrada para probar el teléfono, y hay una reverberación muy fuerte en este entorno. Esta reflexión sonora repetida puede causar dificultades para que el filtro converja, lo que nos plantea un cierto desafío.

3ad4c57de72c0845254b0a9f15c424bd.png

En la aplicación práctica, nos enfrentamos a algunos problemas. Por ejemplo, el uso de cargadores inalámbricos, cuando el teléfono se coloca en el cargador inalámbrico y se realiza una llamada de manos libres, la parte inferior del cargador puede bloquear el micrófono. Por lo tanto, en este momento se necesitan algoritmos para resolver este problema de manera inteligente.

Además, el uso de auriculares también puede encontrar problemas similares, por ejemplo, los métodos de uso incorrectos causarán problemas con el algoritmo de matriz. Con este fin, empleamos un enfoque de formación de forma de onda adaptativa en lugar de formación de haz fijo.

Además de esto, también enfrentamos otros desafíos, como el procesamiento del ruido del viento, porque el impacto del ruido del viento en la señal del micrófono es irregular. Por lo tanto, lidiar con el ruido del viento también es un problema relativamente difícil.

b0d679fdf20e1d60942358a0036e1697.png

También encontramos algunos desafíos mientras trabajábamos en el audio. Por ejemplo, al usar una red 3G, si el usuario usa un número de telecomunicaciones, se puede generar ruido de tap en la red 3G, que es uno de los problemas que debemos resolver.

Además, en los primeros teléfonos móviles suele haber una función de radio. Sin embargo, la tierra GND del circuito puede introducir algo de ruido, con lo que también debemos lidiar.

-04-

Implementación del algoritmo de reducción de ruido de llamadas

8cbbe3d18be1dc7114968b85e410a5a4.png

Cuando se trata de la cantidad de cálculos, el desarrollo de chips juega un papel importante, por ejemplo, MTK y Spreadtrum están desarrollando núcleos. Estos núcleos se actualizan continuamente, incluida la cantidad de núcleos y funciones como SIMD. Las instrucciones SIMD pueden realizar múltiples tareas de suma y multiplicación, lo que nos brinda más recursos informáticos.

Entonces, puede considerar el desarrollo del chip de algoritmo, que es una plataforma relativamente prometedora. En el futuro, también podemos ver el crecimiento continuo de la primera, segunda y tercera generación en términos de poder de cómputo.

62722125237f383c2d549e97d882e9bb.png

Al implementar el algoritmo, el segundo problema que encontramos fue el desafío de pasar y actualizar parámetros. El algoritmo tiene algunos parámetros, y necesitamos pasar estos parámetros al DSP de capa inferior sin problemas para actualizar los parámetros del algoritmo.

Tuvimos un problema en el que no había sonido en los auriculares. Descubrimos que no hubo ejemplos de auriculares indios probados durante la prueba. Solo usamos auriculares domésticos para la prueba, y la ganancia de los auriculares indios fue muy pequeña. Entonces, una vez que hay un problema, tenemos que resolverlo rápidamente.

Por lo tanto, una vez que nuestro algoritmo está ajustado, necesita actualizar los parámetros inmediatamente. En este caso, la estructura del diseño requiere que la CPU pueda pasar rápidamente los parámetros al DSP para resolver el problema rápidamente. La arquitectura Orasis mencionada aquí asegura una comunicación rápida entre la CPU y el DSP subyacente. Sin embargo, también nos enfrentamos a algunos problemas. Por ejemplo, durante una llamada, el cliente puede quejarse de que la calidad de la llamada no es buena, pero no se pueden obtener los datos privados del cliente, por lo que guardaremos algunos datos en el propio teléfono móvil del cliente.

29f350943f5677c5ccaab294f0d9d2f9.png

Cuando el usuario informa que la calidad de la llamada no es buena, se puede guardar el registro de datos relacionado. Realizamos un seguimiento de estos registros y nos comunicamos directamente con los clientes para preguntar si se pueden cargar. Mantendremos estos datos localmente y obtendremos algunos datos de usuario para un análisis de datos adicional.

14ed5a5dc6212bb23fd537ac2d024d8e.png

En los auriculares TWS, además de usar el micrófono tradicional para la comunicación, también podemos usar la VPU para la comunicación. En los auriculares, las capacidades de procesamiento de datos de la VPU se utilizan por completo.

bd73450e16c0803a0e794a95d8ed292f.png

Encontraremos que la calidad de la VPU no es ideal, especialmente en términos de contaminación de alta frecuencia. Sin embargo, hace un buen trabajo a bajas frecuencias. Para resolver este problema, hemos trabajado mucho en esta área y el ruido del viento se maneja sin problemas.

541c37d8244c713588c6bba5e53c823b.png

Este tipo de procesamiento también se realiza en el reloj, por ejemplo, cómo suprimir la reverberación.

En cuanto a las llamadas de teléfonos móviles, también se ha llevado a cabo algún procesamiento. Por ejemplo, solo el propietario del teléfono móvil puede levantar el teléfono móvil para hacer una llamada, y otras personas no pueden usar el teléfono móvil para hacer una llamada.

856cf43d22e7e468b00dc8e64faf8559.png

09a62f55adfdf01781954caa1cee82d9.png

Usamos el método de reducción de ruido de huella de voz para usar los datos de los primeros 30 segundos o 10 segundos o incluso menos para obtener la información de huella de voz del usuario. Luego, durante la llamada, esta información de huella de voz se aplicará al procesamiento algorítmico para suprimir las voces de otras personas.

829624c8c3a7258c93b98fd5b83e8e1b.png

Esta es una demostración de alguna experiencia de efecto de reducción de ruido de huella de voz.

0579eaa21db5a227c710c7fc1c1ddf33.png

De hecho, todavía hay muchos problemas en la reducción de ruido de llamadas, permítanme enumerarlos brevemente. Por ejemplo, es necesario resolver algunos problemas en el caso de una fuerte no linealidad, el problema del eco del micrófono interno, etc.

-05-

El futuro de la cancelación de ruido en las llamadas

d686dff098b6687ae4e38de688fa62c3.png

En términos de perspectivas futuras, para la reducción de ruido de llamadas de teléfonos móviles, podemos considerar los requisitos basados ​​en baja complejidad y bajo consumo de energía. Esto significa que se pueden combinar algoritmos tradicionales y técnicas de aprendizaje profundo. En el caso de recursos informáticos elevados, los modelos de aprendizaje profundo pueden convertirse en la opción principal y adoptar una optimización multinivel para mejorar el rendimiento y el efecto.

8578b9da08dc949ac83486dc36f41a45.png

En el caso de bajo consumo de energía, hice una lista simple. Algunos problemas se pueden tratar con algoritmos clásicos, mientras que para el aprendizaje profundo se pueden considerar los siguientes aspectos: selección de características, estructura de red y función de pérdida. Sin embargo, en aplicaciones prácticas, se puede encontrar que el modelo pequeño funciona mejor en imágenes, pero el efecto en la percepción auditiva puede no ser el ideal.

f6e1a2899bf2066b320c3592a43806a1.png

Finalmente, creo que la reducción de ruido multimodal también es una dirección futura. Eso es todo por compartir hoy, gracias a todos.


165f22806a7911e3e50f2bb3519840d5.jpeg

LiveVideoStackCon es el escenario para todos los técnicos multimedia. Si está a cargo de un equipo o empresa, tiene años de práctica en un determinado campo o tecnología y está interesado en los intercambios técnicos, bienvenido a postularse para ser productor/conferencista de LiveVideoStackCon.

Escanee el código QR a continuación para ver las condiciones de la solicitud del profesor, los beneficios del profesor y otra información. Envíe el formulario en la página para completar la solicitud de instructor. El comité organizador de la conferencia revisará su información lo antes posible y se comunicará con los candidatos calificados.

b4e3233b424f76b13a1a22cbae8e03d6.jpeg

Escanea el código QR de arriba 

Complete el formulario de solicitud de instructor

Supongo que te gusta

Origin blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/132094796
Recomendado
Clasificación