Lectura en papel_Representación de audio_W2V-BERT

información

encabezados numéricos: auto, primer nivel 2, máx. 4, _.1.1
name_en: w2v-BERT: combinación de aprendizaje contrastivo y modelado de lenguaje enmascarado para entrenamiento previo del habla autosupervisado
name_ch: W2V-BERT: combinación de aprendizaje contrastivo y modelado de lenguaje enmascarado precapacitación de habla autosupervisada
paper_addr: https://ieeexplore.ieee.org/document/9688253/
doi: 10.1109/ASRU51503.2021.9688253
date_read: 2023-05-02
date_publish: 2021-12-13
tags: ['aprendizaje profundo ','Audio']
autor: Yu-An Chung, MIT y Google Brain

1 Comentarios

w2v-BERT es aprendizaje de representación para audio. Los modelos se pueden utilizar para optimizar el reconocimiento de voz. Puede verse como una extensión de w2v 2.0.

2 Resumen

En este artículo, se propone el aprendizaje de representación del habla autosupervisado w2v-BERT, que combina el aprendizaje contrastivo y el modelo de lenguaje de máscara. El primero utiliza el modelo para discretizar la señal de voz continua de entrada en un conjunto limitado de marcas de habla distinguibles; .
En comparación con el modelo anterior, w2v-BERT combina dos modelos diferentes para lograr una capacitación integral. w2v-BERT supera a wav2vec 2.0 en más del 30 %.

3 Introducción

contribución principal

  • Proponemos w2v-BERT, que puede optimizar directamente tanto la pérdida de contraste como la pérdida de predicción de máscara para el aprendizaje de representación del habla autosupervisado de extremo a extremo.
  • demuestra que w2v-BERT produce un rendimiento de última generación en la tarea LibriSpeech.
  • Demuestra claras ventajas de w2v-BERT sobre wav2vec 2.0 en una tarea de reconocimiento del mundo real (búsqueda de voz).
  • La necesidad del aprendizaje contrastivo y la predicción de máscaras se confirma empíricamente.

4 métodos

4.1 Estructura del modelo

4.1.1 Codificador de características

Consta de dos capas convolucionales 2D, reduce la longitud de la secuencia de entrada acústica a 1/4. Por ejemplo: dado un espectrograma log-mel como entrada, el codificador de características extrae representaciones de voz latentes, que serán utilizadas como entrada por el módulo de aprendizaje contrastivo subsiguiente.

4.1.2 Módulo de aprendizaje comparativo

Contiene una capa de mapa lineal y múltiples capas de Conformador, cada bloque es una serie de capas de autoatención, convolución profunda y feed-forward de varios cabezales .
El objetivo del módulo contrastivo es discretizar la salida del codificador de características en un conjunto limitado de unidades de voz representativas. El módulo de contraste se ocupa de los mecanismos de cuantificación. Además, se pasa al cuantificador sin máscara para generar vectores de cuantificación y asignar tokens. El vector de cuantificación combina el vector de contexto correspondiente a la posición de la máscara para resolver la optimización de la tarea de comparación definida en wav2vec 2.0; el ID de token asignado se utilizará más tarde como objetivo de predicción por el módulo de predicción de máscara subsiguiente.

4.1.3 Módulo de predicción de máscaras

Usando el método Mask en BERT, usando el resultado del aprendizaje comparativo, aprenda la relación entre contextos de alto nivel en el habla.

4.2 Pre-entrenamiento

4.2.1 Pérdida de aprendizaje contrastiva

(En pocas palabras: la máscara elimina segmentos pequeños y proporciona algunos segmentos generados aleatoriamente, use aprendizaje contrastivo, adivine qué segmento es correcto a través del contexto) La
pérdida contrastiva se usa para entrenar el módulo de comparación junto con el cuantificador, y el método específico es el mismo como mecanismo de cuantificación wav2vec 2.0.
Seleccione aleatoriamente algunos pasos de tiempo para enmascarar . Reemplácelos con vectores aleatorios. La salida del codificador de características enmascaradas se envía al módulo contrastivo para generar vectores de contexto. Al mismo tiempo, la salida del codificador de características también pasa al cuantificador sin máscara para generar su vector de cuantificación . Para el vector de contexto ct correspondiente al paso de tiempo de Máscara t, se requiere que el modelo identifique su verdadero vector de cuantificación qt a partir de un conjunto de K elementos de interferencia { ̃ q1, ̃ q2, …, ̃ qK }, exprese la pérdida como Lw, y use el código Esta pérdida de diversidad Ld lo expande aún más para alentar el código uniforme. La pérdida contrastiva se define como:

4.2.2 Pérdida de predicción de máscara

El vector de contexto generado por el módulo de comparación se pasa directamente al módulo de predicción de máscaras para generar el vector de contexto final para completar la tarea de predicción de máscaras. Se agrega una capa softmax encima del último bloque conformador del módulo. Si el vector de contexto de la última capa corresponde a una posición de máscara, la capa softmax toma el vector de contexto como entrada e intenta predecir su ID de marcador correspondiente , que fue asignado previamente por el cuantificador en el módulo de contraste. Indique la pérdida de entropía cruzada para esta tarea de predicción enmascarada como Lm.
w2v-BERT se puede entrenar para resolver dos tareas autosupervisadas al mismo tiempo, y la pérdida de entrenamiento final que se debe minimizar es:

4.3 Ajuste fino

Uso de datos etiquetados LibriSpeech y búsqueda por voz. Entrenando la tarea ASR de reconocimiento de voz, la red ASR consiste en un modelo w2v-BERT preentrenado y un decodificador LSTM. Una capa lineal con activación Swish y normalización por lotes se inserta en el medio como un bloque de proyección.

5 conocimientos relacionados

  • Modelo conformador: un modelo que mezcla redes neuronales convolucionales y transformadores
  • espectro de sonido log-mel: el proceso incluye realizar la transformada de Fourier de tiempo corto (STFT) en la señal de voz para obtener el espectro, luego convertir el espectro a la escala de frecuencia Mel y finalmente tomar el logaritmo (log) de la escala de frecuencia Mel para obtener el espectro de sonido log-mel.

Supongo que te gusta

Origin blog.csdn.net/xieyan0811/article/details/130791227
Recomendado
Clasificación