Aprendizaje de disparo cero para dividir todo Modelo de segmento cualquier cosa (SAM) + Aprendizaje de disparo cero Entrada ZSL de aprendizaje de disparo cero

1. Tres innovaciones de SAM

Los tres principales puntos de innovación de este documento son:

  • Tarea : modelo de segmentación de imágenes interactivas (palabras de aviso interactivo: aviso disperso {punto, cuadro, texto} y aviso denso {máscara}), aprendizaje de tiro cero de tiro cero (ZSL espera que nuestro modelo nunca pueda verlo Clasificar las categorías pasadas, para que la máquina tenga capacidad de razonamiento y se dé cuenta de la inteligencia real)
  • Modelo : codificador de indicación de palabra rápida + codificador de imagen de imagen + decodificador de máscara de máscara
  • Datos : los datos se utilizan para el entrenamiento del modelo, y el modelo detecta datos desconocidos para formar un circuito cerrado del motor de datos. Hay más de mil millones de datos de máscaras que respetan la privacidad en 11 millones de imágenes autorizadas.

inserte la descripción de la imagen aquí
Objetivo : promptGenerar una máscara válida maskbasada en .

Pensamiento traído por SAM : modificar la estructura del modelo ya no es el enfoque, SAM ha traído un nuevo pensamiento al desarrollo de CV 数据引擎y 基于提示词的Zero-shot​​. Las sumas simultáneas
son herramientas poderosas que permiten usar un solo modelo de manera escalable con el potencial de realizar tareas desconocidas en el momento del diseño del modelo. Los diseños de sistemas componibles, impulsados ​​por técnicas como la ingeniería de señales, ofrecerán aplicaciones más amplias que los sistemas entrenados específicamente para un conjunto fijo de tareas.提示prompt组合compose

2. Motor de datos SAM

Entrenamiento de anotación de ciclo de modelo y datos :

1. 辅助手动阶段: SAM admite la anotación manual para anotar máscaras, similar a la configuración de segmentación interactiva clásica.

2. 半自动阶段: SAM puede generar automáticamente máscaras para un subconjunto de objetos al sugerir posibles ubicaciones de objetos, y la anotación manual se enfoca en etiquetar los objetos restantes que no están segmentados por el modelo, lo que ayuda a aumentar la diversidad de máscaras.

3. 全自动阶段: Solicitamos al SAM una cuadrícula regular de puntos de primer plano, lo que produce un promedio de ~100 máscaras de alta calidad por imagen.

3. Arquitectura del modelo SAM

codificador de imágenes + codificador de indicaciones + decodificador de máscara codificador de imágenes + codificador de indicaciones + decodificador de máscaracodificador de imagen _ _+codificador de impulsos _ _+decodificador ma s k
inserte la descripción de la imagen aquí

Un potente codificador de imágenes calcula 图像embedding, un codificador de sugerencias incrusta 提示embeddingy luego combina las dos fuentes de información en un decodificador de máscara ligero para predecir 分割掩码.

Codificador de imagen : 图像->图像向量, utilizando MAE(modelo de preentrenamiento ViT, CVPR2022);

Codificador de solicitud : 稀疏提示(点/框/文本)->提示向量, usando CLIP(modelo de codificación de texto, CVPR2021); 稠密提示(掩膜)->256维提示向量, usando 卷积;

Decodificador de máscara : 图像向量+提示向量->掩码前景概率, uso Transformer decoder block + 动态mask预测头:

  • Bloque decodificador de transformador : (1) autoatención al vector de sugerencia, (2) atención cruzada del vector de sugerencia (Q) al vector de imagen (KV), (3) MLP de nivel de punto actualiza cada vector de sugerencia, (4) Corss- atención del vector de imagen (Q) al vector de referencia (KV), actualice el vector de imagen con el vector de referencia.
  • Refuerzo de sugerencias : los vectores de sugerencias originales (incluidas sus codificaciones posicionales) se vuelven a agregar a los tokens actualizados del primer decodificador, lo que permite una fuerte dependencia de la posición geométrica y el tipo de vectores de sugerencias.
  • Muestreo ascendente de salida : después de ejecutar dos bloques decodificadores de transformador, el vector de imagen se muestrea 4 veces (2 desconvoluciones), mientras que el MLP asigna el token de salida a un clasificador lineal dinámico y luego calcula la máscara para cada probabilidad de perspectiva de posición de imagen.

Ambigüedad : para que SAM esté al tanto 歧义(el indicador punteado apunta a la camisa de una persona, devuelve 2 máscaras, una para la camisa y otra para la persona que lleva la declaración), lo diseñamos como una predicción, lo que permite que SAM maneje las ambigüedades de forma natural 一个prompt的多个mask. como camisetas y ejemplos humanos.

4. ZSL de aprendizaje de muestra cero de tiro cero

4.1 Descripción general del aprendizaje de disparo cero ZSL

En el pasado, aprendizaje supervisado Supervisado大量带标签数据 ( entrenamiento directamente en Internet), aprendizaje no supervisado No supervisado (en 大量无标签数据Internet, mediante la extracción de las características inherentes de los datos), aprendizaje semisupervisado Semisupervisado (se 大量标签数据agregará al 少量带标签数据entrenamiento juntos para supervisado aprendizaje), aprendizaje supervisado automático Autosupervisado无标签数据 ( entrenamiento en tareas auxiliares primero y luego 少量带标签数据ajuste fino en la parte superior) al realizar la clasificación, todos se basan en las categorías que se han visto durante el entrenamiento , y las categorías no vistas no se pueden clasificar, careciendo de heterogeneidad rendimiento de generalización.
inserte la descripción de la imagen aquí

ZSL es esperar que nuestro modelo pueda clasificar categorías que nunca antes había visto , de modo que la máquina tenga capacidad de razonamiento, realice inteligencia real y reconozca el mundo infinito en categorías de muestra limitadas.

Clases vistas y clases no vistas (clases vistas y clases no vistas): en el problema ZSL, el espacio de características (espacio de características) contiene algunas instancias de entrenamiento etiquetadas, y las categorías cubiertas por estas instancias se denominan clases vistas (clases vistas); al mismo tiempo tiempo, el espacio de características también contiene algunas instancias de prueba sin etiquetar, y las categorías a las que pertenecen estas instancias se denominan clases no vistas.

Por ejemplo , supongamos que nuestro modelo ya conoce caballos, tigres y pandas. Ahora necesitamos que el modelo aprenda a reconocer cebras. Luego, debemos decirle al modelo qué tipo de objeto es una cebra, pero no podemos dejar que el modelo vea directamente 提示prompt/attribute. cebras Entonces, la información que el modelo necesita saber son las muestras de caballos, muestras de tigres, muestras de pandas, etiquetas de diferentes muestras y descripciones sobre los primeros tres animales y cebras, para que el modelo entrenado pueda reconocer la categoría invisible de cebras. .inserte la descripción de la imagen aquí

4.2 Representación formal ZSL de aprendizaje de tiro cero

Representación formal :
(1) Datos del conjunto de entrenamiento X tr X_{tr}Xt ry su etiqueta Y tr Y_{tr}Yt r, contiene las categorías que el modelo necesita aprender (caballo, tigre y panda), lo cual es consistente con la definición en el aprendizaje supervisado tradicional; (2 )
Datos del conjunto de prueba X te X_{te}Xte _y su etiqueta Y te Y_{te}Yte _, incluida la categoría (cebra) que el modelo necesita identificar, que también se define aquí y en el aprendizaje supervisado tradicional;
(3) Descripción de la categoría del conjunto de entrenamiento A tr A_{tr}At r, y una descripción de la clase de conjunto de prueba A te A_{te}Ate _; Tendremos cada categoría yi ∈ Y y_{i}\in YyyoY , se expresan como un vector semánticoai ∈ A a_{i}\in AayoLa forma de A , y cada dimensión de este vector semántico representa un atributo de alto nivel, como "blanco y negro", "tiene cola", "tiene plumas", etc., cuando esta categoría contiene tales atributos, entonces en otra dimensión se establece en un valor distinto de cero. Para un conjunto de datos, la dimensión del vector semántico es fija y contiene atributos que pueden describir completamente las categorías en el conjunto de datos.
inserte la descripción de la imagen aquí
En ZSL, queremos explotarX tr X_{tr}Xt rY tr Y_{tr}Yt rPara entrenar el modelo, y el modelo puede tener el reconocimiento X te X_{te}Xte _La capacidad, por lo que el modelo necesita conocer la descripción A tr A_{tr} de todas las categoríasAt rA la A_{la}Ate _. La configuración de ZSL es en realidad el proceso de identificación de cebras anterior, y debe proporcionarse además 提示信息como un puente de transferencia de conocimiento semántico entre categorías conocidas y categorías desconocidas, para lograr el reconocimiento de categorías desconocidas.
inserte la descripción de la imagen aquí

4.3 Arquitectura general ZSL de aprendizaje de tiro cero

Primero entrene previamente en un gran conjunto de datos para obtener un modelo básico de extracción de características (pesos visuales generales), y luego extraiga características para el espacio visual ZSL y actúe conZSL视觉特征(未知类图像特征) .语义空间(未知类属性提示)交互

inserte la descripción de la imagen aquí
Los métodos de interacción se dividen principalmente en tres tipos :
(1) Coincidencia de características basada en la incrustación : aprender el mapeo de la visión a la semántica, incrustar características visuales en el espacio semántico y convertir a 语义空间的有监督的分类任务.
(2) Aprendizaje supervisado basado en modelos generativos : aprenda el mapeo semántico a visual, genere muestras visuales de clases invisibles de acuerdo con los atributos de las clases invisibles y convierta a 视觉空间的有监督的分类任务.
(3) Aprendizaje supervisado basado en el espacio público : mapear visual y semántica a un espacio público al mismo tiempo, convertir características visuales en características visuales del espacio público, convertir características semánticas en espacio público y convertir en 公共空间的有监督的分类任务.
inserte la descripción de la imagen aquí

4.4 Problemas que enfrenta el aprendizaje de tiro cero ZSL

inserte la descripción de la imagen aquí

(1) El sesgo de dominio cruzado del conjunto de datos (Cross-Databset Bais)
se entrena previamente en Imagenet, y las tareas posteriores se entrenan en otros conjuntos de datos ZSL. La distribución de los dos conjuntos de datos es diferente, lo que resulta en desviaciones en la expresión de características .
inserte la descripción de la imagen aquí
Solución:
ajuste fino : debido a que el conjunto de datos ZSL en sí mismo es muy pequeño, el ajuste fino de la columna vertebral del conjunto de datos ZSL puede provocar fácilmente un sobreajuste, por lo que el método de ajuste fino no funciona.
Refinamiento de características : Directamente en el proceso de aprendizaje de disparo cero, se realiza un refinamiento en las características visuales para mejorar la distribución de características de las clases vistas y no vistas.
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

(2) Alineación de características heterogéneas (Alineación de características heterogéneas) Hay
dos características heterogéneas en el espacio visual y el espacio semántico , y es muy importante alinear estas dos características heterogéneas. Solución:特征分布差异流形结构差异
inserte la descripción de la imagen aquíinserte la descripción de la imagen aquí

inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

(3) Representación semántica intrínseca
Cómo representar eficientemente las características intrínsecas del espacio visual y el espacio semántico es un problema.
inserte la descripción de la imagen aquí

Solución:
inserte la descripción de la imagen aquí
inserte la descripción de la imagen aquí

(4) Problema de cambio de dominio (problema de cambio de dominio)
La definición formal de este problema fue propuesta por primera vez por . En pocas palabras, es el mismo atributo y en diferentes categorías, el rendimiento de las características visuales puede ser grande. Como se muestra en la Figura 3, tanto las cebras como los cerdos tienen cola, por lo que en su categoría de representación semántica, el elemento "tiene cola" es distinto de cero, pero las características visuales de las colas de los dos son muy diferentes. Si las cebras son el conjunto de entrenamiento y los cerdos son el conjunto de prueba, será difícil clasificar correctamente a los cerdos utilizando un modelo entrenado en cebras.
inserte la descripción de la imagen aquí

(5) Problema de hubness (problema de hubness)
Este es en realidad un problema inherente en el espacio de alta dimensión: en el espacio de alta dimensión, algunos puntos se convertirán en los vecinos más cercanos de la mayoría de los puntos. Esto suena contrario a la intuición, pero puede consultarlo para obtener más detalles. Dado que ZSL usa K-NN al calcular la tasa correcta final, se verá afectado por el problema de hubness, y se demuestra que el método basado en la regresión de cresta agravará el problema de hubness.

(6) Las características de las muestras de brecha semántica (brecha semántica)
son a menudo características visuales, como las características extraídas por la red profunda, pero la representación semántica no es visual, lo que refleja directamente los datos: la muestra se forma en la característica espacio El patrón de flujo de es inconsistente con el patrón de flujo de categorías en el espacio semántico. (como se muestra en la Figura 4) Esto hace que sea difícil aprender directamente el mapeo entre los dos.
inserte la descripción de la imagen aquí

Supongo que te gusta

Origin blog.csdn.net/weixin_54338498/article/details/130054278
Recomendado
Clasificación