Optimización de pérdidas multitarea

1. Problemas que enfrenta la optimización del aprendizaje multitarea

El aprendizaje multitarea a menudo tiene un fenómeno de sube y baja, es decir, cuando dos tareas se aprenden juntas, el efecto de una tarea puede mejorar, mientras que el efecto de la otra tarea puede empeorar. En esencia, el núcleo son los siguientes tres problemas en el proceso de capacitación:

  1. Dirección de gradiente multitarea inconsistente: el mismo conjunto de parámetros, diferentes direcciones de actualización de tareas son inconsistentes, lo que resulta en oscilaciones de parámetros del modelo y migración negativa entre tareas, lo que generalmente ocurre en escenarios con grandes diferencias entre múltiples tareas;
  2. La velocidad de convergencia de tareas múltiples es inconsistente: diferentes tareas tienen diferentes velocidades de convergencia.Algunas tareas son relativamente simples y tienen una velocidad de convergencia rápida, mientras que otras son relativamente difíciles.
  3. La magnitud del valor de pérdida multitarea varía mucho: el rango de valores del valor de pérdida de diferentes tareas varía mucho, y el modelo está dominado por la tarea con una pérdida relativamente grande. En este caso, se utilizan diferentes funciones de pérdida para el dos tareas, o el valor del valor de ajuste es muy diferente, etc., son los más comunes.

2. Diseño multitarea

Es más fácil pensar que el diseño de pérdida multiobjetivo debe cumplir con los siguientes dos puntos para evitar ser dominado por una determinada tarea:

  1. La magnitud de la pérdida de cada tarea es cercana, preferiblemente consistente; (la magnitud del rango de valores es cercana), la magnitud de la pérdida puede dividir la pérdida de cada tarea por la pérdida inicial correspondiente (pérdida de entropía cruzada/L2)
  2. Cada tarea se aprende a un ritmo similar. (La velocidad de aprendizaje está cerca), la velocidad es la relación de la pérdida correspondiente al número de iteraciones adyacentes, cuanto menor sea el valor, mayor será la velocidad
  3. Establecer pesos entre tareas

2.3 Cómo diseñar cada pérdida de peso en el aprendizaje multitarea

Optimización de pérdida multitarea recomendada en IA (artículos de peso adaptativo)

Aprendizaje multitarea en Deep Learning de ShowMeAI Knowledge Community — estrategia de optimización de conocimiento parcial

Optimización en aprendizaje multitarea (Optimización en aprendizaje multitarea) bzdww

¿Cómo equilibrar las múltiples pérdidas del aprendizaje profundo? - saber casi

Modelo MTL de aprendizaje multitarea: estrategia de optimización de pérdidas multiobjetivo - 知乎

¿Cómo equilibrar la fusión de modelos multitarea? - Libro corto

Acerca de la inteligencia artificial: tecnología de estimación de CTR multitarea y multiobjetivo - Fun Zone

Método PCGrad: ¿cómo equilibrar las múltiples pérdidas del aprendizaje profundo? - saber casi

                        Aprendizaje multitarea - [ICLR 2020] PCGrad_Xiaoye Maomao (Zhuo Shoujie)'s Blog-CSDN Blog

Incertidumbre de tarea: uno de los métodos de pérdida equilibrada en el aprendizaje de tareas múltiples: algoritmos

 El método propio del autor, sin papel, solo como referencia:

Jishi Developer Platform - Plataforma de desarrollo de algoritmos de visión artificial

2.2 El método para mejorar el efecto de aprendizaje multitarea a través de la optimización de gradiente

Apuntando a los problemas anteriores en el proceso de optimización del aprendizaje multitarea, existen una serie de trabajos en la industria para solucionarlos. Hoy presentaré 4 métodos para mejorar el efecto del aprendizaje multitarea a través de la optimización de gradientes.

Referencia específica:  ¿Cómo debe diseñarse cada pérdida de peso en el aprendizaje multitarea? - saber casi

2.3 Uso de la incertidumbre para sopesar las pérdidas

Aprendizaje multitarea utilizando la incertidumbre para sopesar las pérdidas para la geometría y la semántica de la escena_cdknight_happy的博客-CSDN博客

Pérdida de incertidumbre Pérdida de incertidumbre_CharpYu's Blog-CSDN Blog

2.4, análisis y solución multitarea

Artículo de referencia:

1. Optimización de pérdidas del modelo multiobjetivo - Zhihu

2. Lectura de artículos: Cirugía de gradiente para el aprendizaje multitarea

Supongo que te gusta

Origin blog.csdn.net/ytusdc/article/details/128511116
Recomendado
Clasificación