Introducción a las matrices de micrófonos

Introducción a la matriz de micrófonos (1)

¿Qué es una matriz de micrófonos?

El llamado conjunto de micrófonos es en realidad un sistema de recolección de sonido que utiliza múltiples micrófonos para recolectar sonidos desde diferentes direcciones espaciales.

Por qué utilizar conjuntos de micrófonos:

Una vez que los micrófonos se organizan de acuerdo con los requisitos especificados y se agregan los algoritmos correspondientes (disposición + algoritmo), se pueden resolver muchos problemas acústicos de la sala, como localización de fuentes de sonido, desreverberación, mejora del habla, separación ciega de fuentes, etc.

[Nota]: Antes de comprender el concepto en profundidad, primero comprendamos el conocimiento de los micrófonos.

¿Qué es la directividad del micrófono (directividad)?

La direccionalidad de un micrófono se refiere a la dirección en la que el micrófono puede recibir voz. El sonido se puede transmitir al micrófono desde diferentes direcciones, la parte frontal/posterior/lateral del micrófono, y el micrófono captará el sonido según su propia directividad.

Un micrófono puede recibir sonidos desde el frente con alta sensibilidad, independientemente de los sonidos de atrás y de los lados, y el otro micrófono también puede recibir sonidos de adelante y de atrás, independientemente de los lados. Hay muchas combinaciones.

¿Qué es un micrófono direccional?

El llamado micrófono direccional significa que el micrófono recibe sonido desde una dirección específica o recibe sonido desde todos los ángulos, dependiendo de las propiedades direccionales del propio micrófono.

Micrófonos direccionales de uso común:

  • Micrófonos omnidireccionales
    Algunos micrófonos reciben sonido desde cualquier dirección y se denominan micrófonos omnidireccionales . No importa dónde esté hablando el hablante por el micrófono, delante o detrás, izquierda o derecha, de 0° a 360°, todos estos sonidos se captarán con la misma sensibilidad.
    Insertar descripción de la imagen aquí

  • Micrófonos unidireccionales
    Otros micrófonos son unidireccionales , lo que significa que sólo captan el sonido que proviene de una dirección específica. Cuando la gente habla por un micrófono unidireccional, elija cuidadosamente la dirección del micrófono. Tenemos que hablar en la "dirección de recepción" para obtener una mejor ganancia de sonido, cualquier sonido proveniente de esta dirección debilitará la recepción, lo que significa que la ganancia es muy pequeña.
    Insertar descripción de la imagen aquí

  • Micrófono bidireccional
    Otro tipo de micrófono se llama micrófono bidireccional . Este micrófono puede recibir muy bien sonido tanto de adelante como de atrás, pero la ganancia de sonido en ambos lados es muy pequeña. Capta ondas sonoras con igual sensibilidad en lados opuestos del diafragma, apuntando hacia cero en ángulo recto con el diafragma.
    Insertar descripción de la imagen aquí


  • El otro tipo de micrófono cardioide es el micrófono cardioide , que puede recibir sonidos desde el frente y los lados, pero la ganancia de los sonidos desde atrás es muy pequeña. De hecho, su nombre proviene de la dirección en la que se capta su sonido, que se parece mucho a un corazón.
    Insertar descripción de la imagen aquí
    Nota: No existe un tipo de micrófono del que se pueda decir que sea mejor que otro. Los diferentes tipos de micrófonos tienen sus propias ventajas y desventajas en diferentes entornos de uso. De lo anterior, parece que el micrófono omnidireccional es mejor que otros porque puede recibir sonidos de todas las direcciones en lugar de solo una dirección, pero imagina que si estás en un ambiente ruidoso, el micrófono omnidireccional es una opción relativamente baja. Para los sonidos que necesitábamos, también grabó el ruido circundante. En este entorno, un micrófono direccional (no omnidireccional) puede ser mejor, porque además de obtener el sonido en la dirección que necesitamos, suprime el sonido en otras direcciones, lo que resulta en muy poca ganancia de ruido. Por lo tanto, estos micrófonos son tan buenos como el entorno en el que se utilizan.

Disposición y principio del micrófono:

Diferentes disposiciones de micrófonos corresponden a diferentes algoritmos, por lo que la disposición más simple es una disposición lineal, es decir, los micrófonos están dispuestos en una fila. En el caso de campo lejano (lo que significa que el hablante está lejos del micrófono), generalmente pensamos que la forma de onda de la persona que habla es una onda plana, como sigue: Entonces la señal recibida por cada micrófono no será la misma
Insertar descripción de la imagen aquí
en Al mismo tiempo, debido a que hay un retraso, es posible que le pregunte cuál es el retraso, por lo que el diagrama del modelo de matriz de micrófono lineal unificado específico se proporciona a continuación: Los parámetros específicos
Insertar descripción de la imagen aquí
de este modelo no se explicarán aquí, es muy simple y directo. Entonces desde aquí podemos ver que hay un retraso entre los datos ym(k) recibidos por cada micrófono y los datos recibidos por el micrófono anterior. La fórmula es la siguiente:
Insertar descripción de la imagen aquí
El retardo de tiempo es el siguiente (c es la velocidad del sonido 340 m/s):
Insertar descripción de la imagen aquí
generalmente lo convertimos al dominio de la frecuencia para su procesamiento, por lo que obtenemos la transformada de Fourier anterior (no me pregunten cuál es La transformada de Fourier es):
Insertar descripción de la imagen aquí
Recuerde, aquí están las formas transformadas de Fourier de la fórmula original.

Bien, ahora que se ha inferido el modelo teórico, comencemos a mirar los datos que tenemos a mano. Para decirlo sin rodeos, sabemos qué parámetros de la ecuación, ym(k), se conocen, y estos son los datos recibidos por nuestro micrófono Sí, término datos de observación. En este momento, no comience a recuperar datos basados ​​​​en el modelo cuando tenga la cabeza caliente. El modelo solo nos proporciona ideas de referencia (incluso si desea recuperarlos, no funcionará, no se conoce la máquina virtual). en absoluto).

Después de conocer los datos de observación, necesitamos extraer el contenido que queremos de los datos de observación, por lo que es natural pensar en filtros. A este tipo de filtro lo llamamos: filtro formador de haz (porque mejora el contenido que queremos y debilita el contenido que no queremos. Cuando se combina con el micrófono direccional en el frente, parece que el mundo es increíble): Entre ellos
Insertar descripción de la imagen aquí
:
Insertar descripción de la imagen aquí
Y este Z obtenido es lo que requerimos.

Aquí queda clara la cuestión de cómo estimar este filtro. Existen muchos algoritmos para mejorar el haz y muchas formas de estimar filtros, que van desde simples a complejas y de malas a buenas. Entonces, hablemos del filtro de retardo y suma (DS) más simple basado en nuestro modelo anterior. Su efecto se puede resumir en una oración: solo compensamos las señales recibidas por cada micrófono por su retardo y luego encontramos un valor promedio que no tiene en cuenta la reverberación y otras condiciones que pueden ocurrir en escenas reales. Entonces, nuestra Z es la siguiente:
Insertar descripción de la imagen aquí
Entonces utilizamos el método más simple para obtener la señal que queremos, su evaluación de desempeño y otras explicaciones posteriores.

Principio 2 del conjunto de micrófonos

1 Conjunto de micrófonos
Un conjunto de micrófonos es un conjunto formado por un grupo de micrófonos omnidireccionales ubicados en diferentes posiciones en el espacio y dispuestos de acuerdo con ciertas formas y reglas. Es un dispositivo para el muestreo espacial de señales de sonido transmitidas en el espacio. Las señales recopiladas incluyen su espacio posiciones información. Según la distancia entre la fuente de sonido y el conjunto de micrófonos, el conjunto se puede dividir en modelo de campo cercano y modelo de campo lejano. Según la estructura topológica de la matriz de micrófonos, se puede dividir en matriz lineal, matriz plana, matriz de volumen, etc.

(1) Modelo de campo cercano y modelo de campo lejano
Las ondas sonoras son ondas longitudinales, es decir, ondas en las que las partículas del medio se mueven en la dirección de propagación. La onda de sonido es un tipo de onda de vibración: después de que la fuente de sonido vibra, el medio alrededor de la fuente de sonido vibra y la onda de sonido se propaga con el medio, por lo que es una onda esférica.

Según la distancia entre la fuente de sonido y el conjunto de micrófonos, el modelo de campo sonoro se puede dividir en dos tipos: modelo de campo cercano y modelo de campo lejano. El modelo de campo cercano considera la onda sonora como una onda esférica, que considera la diferencia de amplitud entre las señales recibidas por los elementos del conjunto de micrófonos; el modelo de campo lejano considera la onda sonora como una onda plana, que ignora la diferencia de amplitud entre las Las señales recibidas por cada elemento de la matriz, y considera aproximadamente la diferencia entre las señales recibidas, es una relación de retardo de tiempo simple. Obviamente, el modelo de campo lejano es una simplificación del modelo real, lo que simplifica enormemente la dificultad de procesamiento. Los métodos generales de mejora del habla se basan en modelos de campo lejano.

No existe un estándar absoluto para dividir el modelo de campo cercano y el modelo de campo lejano. Generalmente se cree que cuando la distancia entre la fuente de sonido y el punto de referencia central del conjunto de micrófonos es mucho mayor que la longitud de onda de la señal, es el campo lejano; en caso contrario, es el campo cercano. Supongamos que la distancia entre elementos adyacentes de un conjunto lineal uniforme (también llamado apertura del conjunto) es d, y que la longitud de onda de la frecuencia más alta de la fuente de sonido (es decir, la longitud de onda mínima de la fuente de sonido) es λmin. La distancia desde la fuente de sonido al centro del conjunto es mayor que 2d2/λmin, es un modelo de campo lejano; de lo contrario, es un modelo de campo cercano, como se muestra en la Figura 1.
Insertar descripción de la imagen aquí

(2) Topología del conjunto de micrófonos
Según la dimensión del conjunto de micrófonos, se puede dividir en conjuntos de micrófonos unidimensionales, bidimensionales y tridimensionales. Aquí sólo se analizan conjuntos de micrófonos con ciertas formas regulares.

Conjunto de micrófonos unidimensional, es decir, conjunto de micrófonos lineal, el centro de sus elementos del conjunto está ubicado en la misma línea recta. Según si el espacio entre los elementos de la matriz adyacentes es el mismo, se puede dividir en una matriz lineal uniforme (Uniform Linear Array, ULA) y una matriz lineal anidada, como se muestra en la Figura 2. La matriz lineal uniforme es la topología de matriz más simple, con distancias iguales entre los elementos de la matriz y fase y sensibilidad constantes. La matriz lineal anidada puede considerarse como la superposición de varios grupos de matrices lineales uniformes, que es un tipo especial de matriz no uniforme. La matriz lineal solo puede obtener la información del ángulo de dirección horizontal de la señal.
Insertar descripción de la imagen aquí
Figura 2 Topología de arreglo lineal

Un conjunto de micrófonos bidimensional, es decir, un conjunto de micrófonos plano, tiene el centro de los elementos de su conjunto distribuidos en un plano. Según la forma geométrica de la matriz, se puede dividir en una matriz de triángulo equilátero, una matriz en forma de T, una matriz circular uniforme, una matriz cuadrada uniforme, una matriz circular coaxial, una matriz circular o rectangular, etc., como se muestra en la Figura 3. La matriz plana puede obtener la información de acimut horizontal y acimut vertical de la señal.
Insertar descripción de la imagen aquí
Figura 3 Topología de matriz plana

Una matriz de micrófonos tridimensional, es decir, una matriz de micrófonos tridimensional, tiene centros de elementos de matriz distribuidos en un espacio tridimensional. Según la forma tridimensional de la matriz, se puede dividir en matriz tetraédrica, matriz cúbica, matriz cuboide, matriz esférica, etc., como se muestra en la Figura 4. La matriz tridimensional puede obtener la información tridimensional del ángulo de acimut horizontal, el ángulo de acimut vertical de la señal y la distancia entre la fuente de sonido y el punto de referencia de la matriz de micrófonos.
Insertar descripción de la imagen aquí
Figura 4 Topología de matriz tridimensional

2 formación de haces

La formación de haces consiste en realizar compensación de retardo o fase y procesamiento de ponderación de amplitud en la salida de cada elemento de la matriz para formar un haz que apunta en una dirección específica.

En el modelo de campo lejano, se supone que la entrada es una onda plana. Suponga que la dirección de propagación es θ, la frecuencia en el dominio del tiempo (radianes) es ω y la velocidad de propagación del sonido en el medio es C. Para una onda plana que se propaga en un medio localmente uniforme, defina el haz k como

k = ωsenθ/c = 2senθ/λ, donde λ es la longitud de onda correspondiente a la frecuencia ω. Dado que las señales llegan a diferentes sensores en diferentes momentos, la señal recibida por el conjunto se puede expresar como

f(t)=[f(t-τ0) f(t-τ1)…f(t-τN-1)]T=[exp(jω(t-kτ0)) exp(jω(t-kτ1))… exp(jω(t-kτN-1))]T

Entre ellos, τn es el retraso de la señal recibida por el n-ésimo elemento de la matriz con respecto al punto de referencia, N es el número de elementos de la matriz y T representa la transposición.

definirv(k) = [e-jωkτ0 e-jωkτ1 …e-jωkτN-1]T

El vector v contiene las características espaciales de la matriz y se denomina vector popular de matriz. Entonces f(t) se puede expresar como f(t) = ejωtv(k).

La respuesta del procesador de matriz a una onda plana es y(t,k) =HT(ω) v(k)ejωt

Tenga en cuenta que ω aquí corresponde a una única frecuencia de entrada, por lo que es de banda estrecha. La relación de procesamiento espacio-temporal de la matriz se puede describir completamente mediante el extremo derecho de la ecuación anterior, que se denomina función de respuesta frecuencia-número de onda de la matriz. Describe la ganancia compleja de una matriz para una onda plana de entrada con frecuencia en el dominio del tiempo ω y número de onda k.

El patrón de haz del conjunto refleja la propagación de ondas planas en un medio localmente uniforme. Es una función de respuesta frecuencia-número de onda expresada en la dirección incidente, que puede escribirse como B(ω:θ) = Y(ω,k) |k=senθ .

El patrón de haz del conjunto es un elemento clave para determinar el rendimiento del conjunto. Sus principales parámetros incluyen ancho de banda de 3 dB, distancia al primer punto cero, altura del primer lóbulo lateral, velocidad de atenuación del lóbulo lateral, etc. El cuadrado de su amplitud se define como el patrón de potencia y es una medida comúnmente utilizada del rendimiento de una matriz.

3 Compensación de retardo
Debido a la diferencia en la posición espacial de los elementos de la matriz de micrófonos, hay un retraso en la señal recibida por cada elemento de la matriz. La compensación de retardo se realiza antes del procesamiento de la señal para garantizar la coherencia de los datos que serán procesados ​​por cada matriz. elemento y para hacer que la matriz apunte en la dirección deseada.

Considere el conjunto de micrófonos lineales uniformes más simple, como se muestra en la Figura 5.
Insertar descripción de la imagen aquí
Figura 5 Retraso de tiempo ULA
Supongamos que el conjunto de micrófonos comparte M elementos del conjunto, el centro es el punto de referencia, el espaciado entre los elementos del conjunto es d, el ángulo de incidencia de la señal es θ y la velocidad de propagación del sonido es c, luego, de acuerdo con el conocimiento geométrico, el mésimo (0≤m≤M El retardo de tiempo de -1) elementos de la matriz es τm = (d/c) sinθ(m-(K-1)/2).

El micrófono recopila señales digitales. Suponiendo que el período de muestreo es T, entonces, para señales discretas en el dominio del tiempo, el retraso es D = τ/T.

Generalmente D no es un número entero, pero para señales discretas, los retrasos de números enteros son significativos. Para D no entero, se puede descomponer en la parte entera y la parte fraccionaria D = ⌊D⌋ + d, donde ⌊D⌋ es el redondeo hacia abajo de D, 0≤d<1. Para la parte fraccionaria d distinta de cero, el valor real de la señal está entre dos puntos de muestreo adyacentes, es decir, el retraso fraccionario. En el procesamiento real, d puede redondearse a un número entero y luego agregarse a ⌊D⌋ para obtener un retraso entero aproximado, pero el resultado de este método no es lo suficientemente preciso.

Para obtener resultados de procesamiento más precisos, es necesario diseñar un filtro de retardo fraccional para compensar con precisión el retardo de la señal muestreada. La respuesta al impulso de un filtro de retardo fraccional ideal se puede expresar como hid(m) = sinc(mD).

A partir del conocimiento del procesamiento de señales digitales, se puede saber que la fórmula anterior es infinitamente larga, no causal e inestable, y no se puede realizar físicamente. Para resolver este problema, en la operación real, la ecuación anterior generalmente tiene una ventana y la respuesta al impulso del filtro después de la ventana es

h(m)=(W(mD)sinc(mD), 0≤m≤M-1. La precisión del retardo del filtro de retardo fraccional en ventana está muy cerca del filtro de retardo fraccional ideal.

Mejora del habla en matriz de micrófonos (2)
1. Algoritmo de formación de haz adaptativo GSC en el dominio del tiempo (Griffiths-Jim)
Insertar descripción de la imagen aquí
Figura 2-1 Algoritmo de formación de haz adaptativo GSC en el dominio del tiempo de Griffiths-Jim

En este tema, se implementará y probará experimentalmente el algoritmo GSC clásico en el dominio del tiempo propuesto por Griffiths en 1982 utilizando el entorno de simulación de matriz de micrófonos desarrollado por el Laboratorio del Habla de la Universidad de Edimburgo (que se presentó por separado anteriormente). El primero es el diseño del algoritmo GSC. El diagrama de bloques de la estructura del algoritmo se muestra en la Figura 2-1 anterior. Según su estructura, las partes que necesitamos diseñar son tres partes matriciales: la matriz estática () de la parte de formación de haz fija Insertar descripción de la imagen aquí, la matriz de bloqueo ( Insertar descripción de la imagen aquí) y la matriz de peso ( Insertar descripción de la imagen aquí) de la parte de cancelación adaptativa. Para matrices estacionarias y matrices de bloqueo, Griffiths ha llevado a cabo diseños simplificados de la siguiente manera: Como se muestra en
Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí
las fórmulas anteriores (1-1) y (1-2), para matrices de bloqueo, se utiliza la forma adyacente de [1,-1]. El método de resta de pares de micrófonos y la matriz estática utilizan el método de suma y promedio ( Insertar descripción de la imagen aquítoma Insertar descripción de la imagen aquí). Este método simplificado tiene las ventajas de un cálculo simple y una baja complejidad computacional y, por supuesto, el rendimiento de supresión de ruido correspondiente no es alto. Además del diseño de la matriz estática y la matriz de bloqueo mencionadas anteriormente, también hay una matriz muy importante que debe diseñarse, que es la matriz de coeficientes de peso adaptativo Insertar descripción de la imagen aquí. Para Insertar descripción de la imagen aquíel diseño, originalmente es necesario realizar una operación de inversión de matrices para calcularla. Para reducir aún más la cantidad de cálculo, se utiliza el método de iteración adaptativa LMS. El proceso de solución es el siguiente: (1-3) donde, es
Insertar descripción de la imagen aquíel paso
de iteración Insertar descripción de la imagen aquíLong, Insertar descripción de la imagen aquíes Insertar descripción de la imagen aquíla Insertar descripción de la imagen aquísalida de la matriz de bloqueo, que satisfaceInsertar descripción de la imagen aquí. Este es el proceso de diseño del algoritmo GSC de Griffiths-Jim, pero el diseño de la parte de compensación de retardo no ha estado involucrado. Generalmente existen dos métodos de implementación: alineación en el dominio del tiempo y alineación en el dominio de la frecuencia. El método más simple se presenta a continuación, que es el método de retardo del punto de muestreo en el dominio del tiempo. Como se muestra en la Figura 2-2 a continuación, bajo la premisa de conocer la dirección incidente de la señal de voz objetivo (generalmente estimada por el algoritmo de localización de la fuente de sonido), en función de la señal recibida por el micrófono más a la izquierda o más a la derecha, ajuste los otros micrófonos. El punto de muestreo en el dominio del tiempo se puede ajustar hacia atrás o hacia adelante en unos pocos puntos. Debido a que se conocen el espacio entre los micrófonos y la dirección de incidencia de la fuente de sonido, basándose en la velocidad del sonido de 340 m/s, se puede calcular el número de puntos que cada micrófono debe ajustarse.
Insertar descripción de la imagen aquí
Figura 2-2 Modelo de incidencia de onda plana

2. Prueba de simulación experimental.

Utilizando el entorno de simulación de conjunto de micrófonos presentado anteriormente, se simuló una sala cerrada con una longitud, ancho y alto de 3 m * 4 m * 3 m. La reverberación de la habitación fue de 0,1 s. Se utilizó un conjunto lineal uniforme de 4 micrófonos (espaciado entre micrófonos de 5 cm) y Colocado en el centro de la habitación, la fuente de sonido de destino está ubicada directamente frente al conjunto de micrófonos (eliminando el trabajo de compensación de retardo) y a 1,4 m de distancia del conjunto de micrófonos. Además, se realizaron pruebas experimentales sobre interferencia de voz direccional clara, interferencia de fuente de ruido puntual y ruido difuso no direccional. Tanto la interferencia de voz como la interferencia de fuente de ruido puntual provienen de la dirección de 90 grados en el lado derecho del conjunto de micrófonos y están a 1 m de distancia del micrófono. El ruido difuso se dispersa uniformemente en la habitación en forma de campo esférico, como se muestra en la Figura 2-3 a continuación.
Insertar descripción de la imagen aquí
Figura 2-3 Configuración del entorno de simulación experimental

2.1 Situación de interferencia de voz

En algunos escenarios de aplicación de conjuntos de micrófonos, la interferencia de voz es muy común. Por ejemplo, cuando se lleva a cabo una conferencia remota multimedia en una sala, esperamos que el conjunto de micrófonos solo capture la fuente de sonido de destino que queremos (el orador de la conferencia). Suprimir el ruido que proviene de direcciones que interfieren (por ejemplo, interferencias en el habla de personas que no hablan). Se realizó una prueba experimental para esta situación y los resultados se muestran en la Figura 2-4 a continuación. Entre ellos, (a) y (b) en la Figura 2-4 son los resultados antes y después del procesamiento del algoritmo cuando la fuente de sonido objetivo y la fuente de interferencia hablan respectivamente (la fuente objetivo habla primero y la fuente de interferencia habla después). (c) y (d)) es el resultado antes y después del procesamiento del algoritmo cuando se habla simultáneamente. De los resultados del gráfico de forma de onda en el dominio del tiempo se puede ver que la amplitud de la fuente de sonido de interferencia se reduce significativamente y que el algoritmo GSC puede lograr un rendimiento de filtrado espacial efectivo.
Insertar descripción de la imagen aquí
Figura 2-4 Diagrama de forma de onda en el dominio del tiempo de una situación de interferencia del habla

2.2 Interferencia procedente de fuentes puntuales de ruido

Las fuentes puntuales de ruido son similares a la interferencia del habla, excepto que la señal de interferencia no es el habla sino el ruido que viene de una dirección fija. Por ejemplo, si hay una ventana en la habitación y un automóvil pasa por la ventana, entonces el ruido del automóvil que entra desde la ventana hay una fuente puntual de ruido. Para el caso de una fuente de ruido puntual, el experimento probó el caso de ruido blanco (relación señal-ruido de entrada de 0 dB), como se muestra en la Figura 2-5. Entre ellos, (a) es el diagrama de forma de onda en el dominio del tiempo de la voz pura, (b) y (c) son la voz interferida por fuentes puntuales de ruido y la voz sin ruido procesada por el algoritmo, respectivamente. Obviamente, el algoritmo GSC puede suprimir eficazmente la interferencia de fuentes puntuales de ruido con una direccionalidad clara, lo que hace que se atenúe la amplitud de la señal de la fuente puntual de ruido.
Insertar descripción de la imagen aquíInsertar descripción de la imagen aquí
Figura 2-5 Diagrama de forma de onda en el dominio del tiempo de interferencia de fuente de ruido puntual

2.3 Interferencia procedente de fuentes de ruido difuso

El ruido difuso se genera mediante la simulación de un modelo matemático de un campo de ruido esférico, por lo que no tiene una direccionalidad clara y existe uniformemente en toda la habitación. Es un tipo de ruido común en la vida real. Aquí, el ruido blanco todavía se utiliza como fuente de ruido difuso (la relación señal-ruido de entrada es 0 dB). Los resultados de las pruebas experimentales se muestran en la Figura 2-6 a continuación. Entre ellos (a) está el diagrama de forma de onda en el dominio del tiempo de la señal de voz pura, (b) es la señal de voz contaminada por fuentes de ruido difuso y (c) es la señal de voz sin ruido procesada por el algoritmo GSC. A partir de los resultados experimentales, se encuentra que el algoritmo GSC tiene una capacidad relativamente débil para suprimir el ruido difuso, es decir, cuando el ruido en el espacio no tiene características direccionales, la ventaja de filtrado espacial del algoritmo GSC se debilitará enormemente. Esta es también la razón del algoritmo de formación de haces de la matriz de micrófonos.
Insertar descripción de la imagen aquí
Insertar descripción de la imagen aquí
Figura 2-6 Diagrama de forma de onda en el dominio del tiempo de la interferencia procedente de fuentes de ruido difuso

referencias:

Griffiths LJ, Jim C W. Un enfoque alternativo a la formación de haces adaptativa lineal restringida [J]. IEEE Trans Antennas & Propag, 1982, 30(1):27-34.

Mejora del habla
1.1 Descripción general de la mejora del habla

Mejora del habla, nombre en inglés: Speech Enhancement , su esencia es la reducción del ruido del habla. En otras palabras, en la vida diaria, el habla recogida por el micrófono suele estar "contaminada" con diferentes ruidos. El objetivo principal de la mejora del habla es eliminar estos discurso "contaminado". Recuperar el discurso limpio que queremos del discurso ruidoso "contaminado".

La mejora del habla involucra una amplia gama de campos de aplicación, incluidas llamadas de voz, conferencias telefónicas, grabaciones de escenas, escuchas militares, equipos de audífonos y equipos de reconocimiento de voz, etc., y se ha convertido en un módulo de preprocesamiento para muchos sistemas de reconocimiento y codificación de voz. Por poner algunos ejemplos sencillos, entre los asistentes de voz de los teléfonos móviles, como Siri de Apple y Cortana de Microsoft, se encuentran entre los mejores: realizan el habla en un entorno de corto alcance (generalmente la distancia de trabajo es inferior a 1 metro) y sin ruido. El reconocimiento tiene una alta precisión de reconocimiento de voz, pero si nuestras escenas acústicas se vuelven más complejas, como exposiciones, calles y otras escenas, el impacto del ruido reducirá en gran medida la precisión de su reconocimiento de voz, por lo que se reduce la parte frontal del reconocimiento de voz. El ruido es muy importante. Además, la tecnología de mejora del habla también tiene sus aplicaciones en algunos audífonos. Los audífonos comunes solo implementan una amplificación básica del habla. Los más complejos realizarán una compresión del nivel de presión sonora para compensar el rango auditivo del paciente. Sin embargo, si la escena auditiva es más compleja, el habla escuchada por el paciente no solo incluirá el habla amplificada. También contiene mucho ruido, lo que inevitablemente causará daños secundarios al sistema auditivo del paciente con el tiempo, por lo que en los audífonos digitales de alta gama, la reducción del ruido de la voz se ha convertido en un aspecto importante que no pueden ignorar.

La mejora del habla, como rama del procesamiento de señales digitales, tiene una historia de más de 50 años. Aunque la tecnología de mejora del habla parece ser simplemente un proceso simple de restauración del habla, el conocimiento y los algoritmos involucrados son extensos y diversos. En el mundo académico, se puede decir que la investigación en este campo es "cien flores que florecen y cien escuelas de pensamiento en competencia". Existen tanto métodos tradicionales de procesamiento de señales digitales como métodos de aprendizaje profundo que acaban de surgir en los últimos años. Después de décadas de desarrollo, han surgido muchos nombres importantes en el mundo académico, como Rainer Martin, Yariv Ephraim, Israel Cohen, Phillip Loizou y Sharon Gannot, quienes han hecho grandes contribuciones a los métodos de mejora del habla en el campo del procesamiento de señales digitales. jugó un papel muy importante en la promoción. Sin embargo, en otro campo emergente de mejora del habla: la mejora del habla con aprendizaje profundo, aunque es una estrella en ascenso, con la actualización de la tecnología de hardware, esta tecnología se ha implementado en el mundo de la ingeniería, lo que también le ha permitido afianzarse en el campo de la mejora del habla. Por supuesto, el desarrollo de esta tecnología es inseparable de los grandes logros alcanzados por Geoffrey Hinton, el "padre del aprendizaje profundo", en la estructura de las redes neuronales. En el mundo académico actual, si hay alguien que realmente ocupa un lugar en este campo, personalmente creo que es el profesor Wang Deliang de la Universidad Estatal de Ohio. Su laboratorio y sus estudiantes han jugado un papel muy importante en el desarrollo del habla de aprendizaje profundo. método de mejora efecto de promoción.

1.2 Clasificación
Insertar descripción de la imagen aquí
de los métodos de mejora del habla Los métodos de mejora del habla se pueden clasificar según sus métodos de aplicación y se pueden dividir en las dos categorías siguientes: métodos de mejora del habla con procesamiento de señales digitales y métodos de mejora del habla basados ​​en aprendizaje automático. Entre ellos, el método de mejora del habla en el procesamiento de señales digitales es el método principal, tiene una larga historia y una base técnica profunda y actualmente es la idea principal de la reducción del ruido del habla en la comunidad de ingenieros. En los métodos tradicionales de procesamiento de señales digitales, según la cantidad de canales, se pueden dividir en: método de mejora del habla de un solo canal y método de mejora del habla con matriz de micrófonos.

En el método tradicional de mejora del habla de un solo canal, se utiliza mucho conocimiento del procesamiento de señales digitales. Existen métodos tanto en el dominio del tiempo como en el dominio de la frecuencia, siendo el procesamiento en el dominio de la frecuencia el principal. Entre ellos, el método de mejora del habla basado en cortos Actualmente se utiliza la estimación del espectro de tiempo. El método de mejora del habla más extenso, los algoritmos específicos se pueden dividir en las siguientes tres categorías: resta espectral, filtrado de Wiener y métodos basados ​​en modelos estadísticos. Además del método de espectro de tiempo corto mencionado anteriormente, también existe un método de filtrado adaptativo en el campo de la mejora del habla de un solo canal, pero requiere conocer el ruido o el habla pura de antemano y luego usar el descenso de gradiente estocástico para aproximar el solución óptima. En la mayoría de los casos, no se dispone de conocimientos previos como el ruido o el habla pura, lo que limita en gran medida la aplicación del método de filtrado adaptativo. Sin embargo, este método se utiliza ampliamente para la reducción de ruido en llamadas de teléfonos móviles y, por lo general, se utiliza especialmente en Teléfonos móviles Utilice un micrófono de reducción de ruido para captar el ruido del entorno y utilícelo como entrada de referencia para lograr la reducción de ruido. Además, entre los métodos monocanal, también existe un método subespacial que también ha llamado mucho la atención, pero que no se utiliza mucho en ingeniería debido a su complejidad computacional relativamente alta. En los últimos años, el método de la transformada wavelet se ha desarrollado rápidamente, supera las deficiencias de la resolución fija de la transformada de Fourier de corto tiempo y puede obtener información de señales a diferentes resoluciones, y se ha utilizado ampliamente en los últimos años.

En el método de mejora del habla con matriz de micrófonos, debido a que se utilizan más micrófonos y se tiene en cuenta la información espacial de la señal, tiene más ventajas que la mejora del habla de un solo canal en términos de suprimir la interferencia en direcciones específicas y realizar la separación del habla. El método de mejora del habla mediante conjunto de micrófonos se utiliza actualmente ampliamente en campos como los altavoces inteligentes y los robots. Aprovechando sus múltiples micrófonos, dichos productos pueden lograr una mejora del habla en campos lejanos y entornos acústicos más complejos. Los métodos convencionales de matriz de micrófonos incluyen: método de formación de haz fijo y método de formación de haz adaptativo. El entorno de aplicación de la formación de haces fija es muy limitado, pero la complejidad computacional es baja, por lo que generalmente se utiliza en entornos donde la escena acústica es fija. El método de formación de haces adaptativa muestra una mayor robustez, por supuesto. A expensas de la complejidad computacional, hay Actualmente hay dos campos principales de métodos de formación de haces adaptativos: estructura LCMV y estructura GSC. Los algoritmos de mejora del habla de la matriz de micrófonos actuales se mejoran y optimizan básicamente en función de estas dos estructuras.

El método de mejora del habla basado en el aprendizaje automático es una técnica inteligente que, a diferencia del método tradicional de procesamiento de señales digitales, se basa en las ideas del aprendizaje automático y logra la mejora del habla mediante capacitación supervisada. Los algoritmos en este campo acaban de comenzar y tienen menos de veinte años de historia, sin embargo, "la existencia es razonable". La razón por la que pueden ocupar un lugar en el campo de la mejora del habla también tiene sus ventajas. Por ejemplo, algunas comparaciones en el En el campo del procesamiento de señales digitales, este método puede resolver más fácilmente problemas complicados como la eliminación del ruido instantáneo, por lo que este tipo de algoritmo puede convertirse en la dirección principal de la mejora del habla en la futura era de la inteligencia artificial. Hoy en día, no existen muchos métodos de mejora del habla que utilicen el aprendizaje automático. En resumen, se pueden dividir en las siguientes categorías: mejora del habla basada en modelos ocultos de Markov, mejora del habla basada en la descomposición de matrices no negativas, mejora del habla basada en redes neuronales poco profundas. y Mejora del habla basada en redes neuronales profundas. Entre ellos, el método de mejora del habla basado en una red neuronal profunda, es decir, la mejora del habla de aprendizaje profundo, utiliza la poderosa capacidad de mapeo no lineal de la estructura de la red neuronal profunda y entrena una gran cantidad de datos para entrenar un modelo no lineal para la mejora del habla, que ha logrado muy buenos resultados Efecto. Además, este tipo de método acaba de implementarse en la comunidad de ingenieros. El teléfono móvil Mate10 lanzado por Huawei este año ha aplicado con éxito esta tecnología a llamadas de voz en entornos acústicos complejos. También puede considerarse como un pionero en la aplicación de Desde el aprendizaje profundo hasta la mejora del habla, dónde ir en el futuro aún requiere los esfuerzos incansables de nuestra generación.

1.3 Primeros pasos con la mejora del habla

Hay muchas direcciones en la mejora del habla, y los expertos en cada campo son diferentes, y el conocimiento involucrado también es diferente, por lo que los expertos y los libros en diferentes direcciones de investigación de la mejora del habla se dan respectivamente.

  1. Método tradicional de mejora del habla de un solo canal:
    Yariv Ephraim Página de inicio: http://ece.gmu.edu/~yephraim/
    Página de inicio de Rainer Martin: http://www.ruhr-uni-bochum.de/ika/mitarbeiter/martin_publik .htm #2017
    Israel Cohen Página de inicio: http://webee.technion.ac.il/people/IsraelCohen/
    Philip Loizou Página de inicio: http://ecs.utdallas.edu/loizou/
    Libros recomendados: "Speech Enhancement Theory and Práctica" (Loizou)

  2. Métodos de mejora del habla utilizando conjuntos de micrófonos:
    Sharon Gannot Página de inicio: http://www.eng.biu.ac.il/gannot/
    Página de inicio de Jacob Benesty: http://externe.emt.inrs.ca/users/benesty/
    Recomendado libros: "Conceptos y técnicas de formación de haces de banda ancha" (Wei Liu)

  3. Método de mejora del habla basado en el aprendizaje profundo:
    página de inicio de Wang Deliang: http://web.cse.ohio-state.edu/~wang.77/index.html
    Aprendizaje recomendado: curso en línea de aprendizaje profundo de Andrew Ng: http://mooc. estudio 163.com/smartSpec/detail/1001319001.htmTesis
    doctoral: "Investigación sobre métodos de mejora del habla basados ​​en redes neuronales profundas" (Xu Yong 2015)

Supongo que te gusta

Origin blog.csdn.net/weixin_43153548/article/details/82842562
Recomendado
Clasificación