AudioLM: un enfoque de modelado de lenguaje para la generación de audio

  • Google
  • 2022-09

abstracto

  • motivación: Generar audio de alta calidad con correlación a largo plazo. habla2habla
  • El habla se cuantifica en tokens discretos y luego se restaura en audio.

introducción

  • En ausencia de condiciones (características lingüísticas, secuencias MIDI), incluso si es tan fuerte como la red de ondas, solo puede generar ruido.
  • Métodos anteriores: los tokens semánticos se obtienen utilizando modelos previamente entrenados utilizando métodos de modelos de lenguaje autosupervisados. Estos tokens capturan dependencias locales (phn, melodía local en la música), características a largo plazo (información de sintaxis del idioma en el habla, armonía y ritmo en la música de piano). - La calidad de la reconstrucción no es alta.
  • contribución
    • SoundStream extrae características acústicas para garantizar la calidad de la generación, w2v-BERT extrae tokens semánticos para garantizar un modelado coherente a largo plazo;
    • La existencia del indicador se puede realizar en muchos sistemas. El indicador de altavoz invisible 3s puede realizar la reproducción del timbre, el ritmo y el entorno de grabación; después de dar el indicador del piano, puede generar música con la misma melodía, ritmo y timbre del instrumento.
    • Problema de seguridad: para evitar el abuso de generación, entrene un discriminador de muy alta precisión para determinar si el audioLM genera el habla.

trabajo relacionado

  • códec neutral: AudioLM utiliza los tokens (reducción de resolución) extraídos por el códec neutral de SoundStream como destino para el modelado de secuencias, y los tokens se pueden reconstruir como voz.
    inserte la descripción de la imagen aquí

  • SoundStream: cuantificador residual multinivel (cuantificación VQ), reducción de muestreo de CNN, representación de audio de entrada como { 1 , 2 , . . . , N } T a × Q \left \{ 1,2,...,N \ right \ }^{T_a\veces Q}{ 1 ,2 ,... ,n }Tun× Q , dondeT a T_aTunEs la duración del audio después de la reducción de resolución, N = 1024, Q cuantificadores, el preentrenamiento Q = 4 utilizado en este artículo, basado en 16k de audio 320 veces de reducción de resolución. El decodificador de flujo de sonido utiliza pérdida de reconstrucción + entrenamiento de pérdida de confrontación.

  • w2v-BERT: basado en la pérdida de modelado de lenguaje enmascarado y el entrenamiento de pérdida de aprendizaje contrastivo, use la capa intermedia de la estructura de MLM del modelo preentrenado para calcular los resultados de kmeans y tomar incrustaciones en kmeanscentroide del mapaComo tokens semánticos, la tasa de reducción de muestreo es 640 veces. (Los experimentos han encontrado que w2v-BERT está normado antes que ksignifica agrupación, lo que es más propicio para la representación de información de fonemas). De hecho, la esencia de las características extraídas por la estructura de hubert es la misma.

Modelado jerárquico de tokens semánticos y acústicos

Usando la estructura jerárquica para predecir tokens semánticos y tokens acústicos, primero prediga los tokens semánticos de toda la secuencia y luego prediga los tokens acústicos usando los tokens semánticos como condiciones. La razón principal es (1) p ( zt ∣ z < t , y < t ) ~ p ( zt ∣ z < t ) p(z_t|z<t,y<t) ~ p(z_t|z<t)pag ( ztz<t ,y<t ) p ( ztz<t ) , dadas las fichas semánticas pasadas, las fichas semánticas actuales pueden ser condicionalmente independientes de las fichas acústicas. (2) La longitud de la secuencia de cada etapa se acorta (porque la predicción multinivel de las fichas acústicas se empalma horizontalmente, lo que dará como resultado una longitud de cálculo N*Q muy larga), lo que reduce la cantidad de cálculo.

inserte la descripción de la imagen aquí

  • Fase 1: Predicción de tokens semánticos
  • La segunda etapa: predicción de tokens acústicos gruesos (primeros dos niveles), predicción autorregresiva
  • La tercera etapa: condicionada a fichas acústicas gruesas, prediciendo fichas acústicas finas.
  • La separación de las dos y tres etapas puede reducir la duración de la secuencia; además, las tres etapas son independientes de las dos etapas, la secuencia de tres etapas se puede escalar independientemente de la duración del audio y se pueden predecir más detalles con rvq.

Supongo que te gusta

Origin blog.csdn.net/qq_40168949/article/details/130427104
Recomendado
Clasificación