revisión: aprendizaje autosupervisado para texto
1. Aprendizaje autosupervisado del habla
El uso de la versión Speech de bert puede funcionar mejor en tareas de voz. Si no hay autosupervisión, otros modelos pueden requerir decenas de miles de horas de datos.
Magnífico
- curso ytb: MpsVE60iRLM
- Herramienta: s3prl
2. Aprendizaje autosupervisado para imagen
3. Enfoques generativos
Discurso
aplicado a la voz
- serie berto
Cubre partes de la señal de sonido para restaurar el modelo.
- Serie GPT
Dado un texto, prediga cuál será el próximo texto; dada una señal de sonido, prediga cuál será el próximo discurso:
el texto es una palabra y el sonido debe ser mayor que tres palabras.
Imagen
Aplíquelo a una imagen, enderece en un vector unidimensional
y luego cubra algunos píxeles para predecir el siguiente píxel; o dado un segmento de píxeles, prediga cuál es el siguiente píxel y luego tome las tareas posteriores, como la clasificación.
4. Enfoque predictivo
En comparación con el texto, el habla y las imágenes contienen muchos detalles y suelen ser más difíciles.
Imagen: predice si la imagen se ha girado
Imagen - predicción de contenido
Predice en qué dirección está el segundo bloque pequeño de dos bloques en el primer bloque pequeño.
Aprendizaje autosupervisado sin generación.
Deje que la máquina prediga el resultado del clúster.
5. Aprendizaje contrastivo - aprendizaje contrastivo
Es mejor mantener los mismos vectores lo más cerca posible y mantener los diferentes vectores lo más lejos posible.
Pero no sé la categoría, ¿cómo hacerlo?
SimCLR
La imagen de aumento de datos en la imagen es un par positivo, y si es la imagen de aumento de datos de otra imagen, es un par negativo.
aumento de datos:
- cultivo aleatorio
- distorsiones de color
- desenfoque gaussiano
Versión de voz de Speech Simclr
MoCo
Aprendizaje contrastivo con versiones de voz
- CPC
- Wav2Vec
Puede usar el codificador en tareas posteriores o usar el codificador y el predictor juntos en tareas posteriores.
Cubra la ficha y deje que Bert aprenda a llenar los espacios en blanco:
La versión wav2vec 2.0 combina el codificador y la codificación bert para el entrenamiento. Algunas partes de la máscara de entrada se usan para predecir qué tokek es la máscara. .
Bert es en realidad un tipo de aprendizaje contrastivo, y también hace que la respuesta correcta sea lo más cercana posible.
Tarea de clasificación: mayor puntuación es mejor
Tarea de aprendizaje contrastivo: menor puntuación es mejor
Si hay muchas categorías en la tarea de clasificación, es imposible que el par aleatorio enumere todas las demás combinaciones. Puede aprender de forma contraria, de modo que el producto de la incrustación correcta y la salida de la última capa sea lo más pequeño posible, y algunas incrustaciones incorrectas y la salida de la última capa se seleccionan aleatoriamente. Cuanto más grande sea el producto, mejor.
Es difícil enumerar exhaustivamente todas las muestras negativas. Solo queremos que la incrustación se represente mejor a sí misma. Bert puede considerarse como la idea del aprendizaje comparativo.
dificultad
Elija muestras negativas:
- Elija muestras negativas que sean lo suficientemente difíciles, pero muestras negativas no demasiado difíciles (por ejemplo, dos gatos del mismo tipo, y el vector del gato también se retira). A continuación se describe cómo evitar la selección de muestras negativas
.
6. Enfoques de arranque
Si no hay una muestra negativa, siempre que se den dos imágenes, se obtendrán dos vectores muy cercanos. Este no es el resultado que queremos: si
solo se usan muestras positivas, un canal es seguido por un predictor, de modo que las incrustaciones generados por los dos canales están lo más cerca posible. , pero solo se actualiza el canal derecho. Después del entrenamiento, los parámetros del canal derecho se sincronizan con el canal izquierdo:
- La estructura de los lados izquierdo y derecho es un poco diferente.
- Solo entrene el codificador en un lado y luego copie los parámetros entrenados en el otro lado
Los dos canales son diferentes, por lo que los dos no pueden hacer trampa juntos, y la estructura anterior también puede entenderse como una forma de destilación del conocimiento:
Algoritmos relacionados:
- Imagen
- BYOL
- Simsiam
- Discurso
- datos2vec
7. Regularización simplemente extra
Dado un lote, se requiere que la diferencia de cada dimensión sea mayor que un umbral:
Lo más importante es la varianza, puede agregar algo de optimización a Covariance en el futuro, la dirección de voz es similar a DeloRes