Aprendizaje automático: aprendizaje autosupervisado de voz e imagen

inserte la descripción de la imagen aquí

revisión: aprendizaje autosupervisado para texto

inserte la descripción de la imagen aquí

1. Aprendizaje autosupervisado del habla

inserte la descripción de la imagen aquí
El uso de la versión Speech de bert puede funcionar mejor en tareas de voz. Si no hay autosupervisión, otros modelos pueden requerir decenas de miles de horas de datos.

Magnífico

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí


2. Aprendizaje autosupervisado para imagen

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí


3. Enfoques generativos

inserte la descripción de la imagen aquí

Discurso

aplicado a la voz

  • serie berto
    inserte la descripción de la imagen aquí

Cubre partes de la señal de sonido para restaurar el modelo.
inserte la descripción de la imagen aquí

  • Serie GPT
    Dado un texto, prediga cuál será el próximo texto; dada una señal de sonido, prediga cuál será el próximo discurso:
    inserte la descripción de la imagen aquí
    el texto es una palabra y el sonido debe ser mayor que tres palabras.

Imagen

Aplíquelo a una imagen, enderece en un vector unidimensional
inserte la descripción de la imagen aquí
y luego cubra algunos píxeles para predecir el siguiente píxel; o dado un segmento de píxeles, prediga cuál es el siguiente píxel y luego tome las tareas posteriores, como la clasificación.

4. Enfoque predictivo

inserte la descripción de la imagen aquí
En comparación con el texto, el habla y las imágenes contienen muchos detalles y suelen ser más difíciles.

Imagen: predice si la imagen se ha girado

inserte la descripción de la imagen aquí

Imagen - predicción de contenido

Predice en qué dirección está el segundo bloque pequeño de dos bloques en el primer bloque pequeño.
inserte la descripción de la imagen aquí

Aprendizaje autosupervisado sin generación.
inserte la descripción de la imagen aquí
Deje que la máquina prediga el resultado del clúster.


5. Aprendizaje contrastivo - aprendizaje contrastivo

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Es mejor mantener los mismos vectores lo más cerca posible y mantener los diferentes vectores lo más lejos posible.
Pero no sé la categoría, ¿cómo hacerlo?

SimCLR

La imagen de aumento de datos en la imagen es un par positivo, y si es la imagen de aumento de datos de otra imagen, es un par negativo.
inserte la descripción de la imagen aquí
aumento de datos:

  • cultivo aleatorio
  • distorsiones de color
  • desenfoque gaussiano

Versión de voz de Speech Simclr

MoCo

inserte la descripción de la imagen aquí

Aprendizaje contrastivo con versiones de voz

  • CPC
  • Wav2Vec

inserte la descripción de la imagen aquí
Puede usar el codificador en tareas posteriores o usar el codificador y el predictor juntos en tareas posteriores.

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Cubra la ficha y deje que Bert aprenda a llenar los espacios en blanco:

inserte la descripción de la imagen aquí

La versión wav2vec 2.0 combina el codificador y la codificación bert para el entrenamiento. Algunas partes de la máscara de entrada se usan para predecir qué tokek es la máscara. .

inserte la descripción de la imagen aquí
Bert es en realidad un tipo de aprendizaje contrastivo, y también hace que la respuesta correcta sea lo más cercana posible.
inserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí

Tarea de clasificación: mayor puntuación es mejor
Tarea de aprendizaje contrastivo: menor puntuación es mejor

Si hay muchas categorías en la tarea de clasificación, es imposible que el par aleatorio enumere todas las demás combinaciones. Puede aprender de forma contraria, de modo que el producto de la incrustación correcta y la salida de la última capa sea lo más pequeño posible, y algunas incrustaciones incorrectas y la salida de la última capa se seleccionan aleatoriamente. Cuanto más grande sea el producto, mejor.

inserte la descripción de la imagen aquí
Es difícil enumerar exhaustivamente todas las muestras negativas. Solo queremos que la incrustación se represente mejor a sí misma. Bert puede considerarse como la idea del aprendizaje comparativo.
inserte la descripción de la imagen aquí

dificultad

Elija muestras negativas:

  • Elija muestras negativas que sean lo suficientemente difíciles, pero muestras negativas no demasiado difíciles (por ejemplo, dos gatos del mismo tipo, y el vector del gato también se retira). A continuación se describe cómo evitar la selección de muestras negativas
    inserte la descripción de la imagen aquí
    .

6. Enfoques de arranque

inserte la descripción de la imagen aquí
Si no hay una muestra negativa, siempre que se den dos imágenes, se obtendrán dos vectores muy cercanos. Este no es el resultado que queremos: si
inserte la descripción de la imagen aquí
solo se usan muestras positivas, un canal es seguido por un predictor, de modo que las incrustaciones generados por los dos canales están lo más cerca posible. , pero solo se actualiza el canal derecho. Después del entrenamiento, los parámetros del canal derecho se sincronizan con el canal izquierdo:
inserte la descripción de la imagen aquí

  • La estructura de los lados izquierdo y derecho es un poco diferente.
  • Solo entrene el codificador en un lado y luego copie los parámetros entrenados en el otro lado

Los dos canales son diferentes, por lo que los dos no pueden hacer trampa juntos, y la estructura anterior también puede entenderse como una forma de destilación del conocimiento:

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
Algoritmos relacionados:

  • Imagen
    • BYOL
    • Simsiam
  • Discurso
    • datos2vec

7. Regularización simplemente extra

inserte la descripción de la imagen aquí
Dado un lote, se requiere que la diferencia de cada dimensión sea mayor que un umbral:
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

Lo más importante es la varianza, puede agregar algo de optimización a Covariance en el futuro, la dirección de voz es similar a DeloRes

Resumir

inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/uncle_ll/article/details/131798275
Recomendado
Clasificación