Tareas de visión principales basadas en VLP(7)

        La visión por computadora ya es omnipresente en nuestra sociedad, con aplicaciones en áreas como la búsqueda visual, la comprensión de imágenes, la elaboración de mapas, la medicina y los vehículos autónomos. Una de las tareas principales de estas aplicaciones son las tareas de reconocimiento visual, como la clasificación de imágenes y la detección de objetos. El objetivo principal de estas tareas es asignar conceptos semánticamente significativos a instancias visuales, como imágenes o regiones. Los sistemas de visión por computadora tradicionales están capacitados para predecir un conjunto fijo de conceptos predefinidos, como etiquetas de clases de imágenes en ImageNet/JFT300M, categorías de objetos en COCO, etc. Aunque se ha informado de un rendimiento casi humano en estas tareas, esta forma restringida de proximidad a conceptos establecidos limita la generalización y usabilidad del modelo porque se requieren datos anotados adicionales para especificar conceptos semánticos que no se ven en los datos de entrenamiento. En este capítulo, describimos cómo los avances recientes en VLP abordan los problemas centrales del reconocimiento visual.

1. Principios básicos del cambio de paradigma

        Los sistemas de visión por computadora recientes están entrenados con supervisión de lenguaje natural de forma libre, que va desde simples nombres de categorías de objetos hasta descripciones descriptivas. Este modelo visual con lenguaje aumentado exhibe fuertes capacidades de transferencia. Creemos que los siguientes dos factores han contribuido a este cambio de paradigma.

(1) El reconocimiento abierto se logra transformando el problema de la clasificación a la recuperación.

        Las formas tradicionales de clasificación definen y aprenden un conjunto fijo de vectores de incrustación, cada uno de los cuales representa una categoría de objeto. El modelo no puede predecir ni transmitir conceptos más allá de estas densas colecciones de conceptos. Otra opción es pensar en la clasificación de imágenes como una tarea de recuperación de imagen a texto, donde las imágenes (o regiones de imágenes) se encuentran buscando conceptos coincidentes. Se emplean modelos paramétricos, como redes neuronales, para codificar imágenes y lenguaje (conceptos), y se realiza una recuperación densa para recuperar imágenes de conceptos relacionados.

(2) El formulario de supervisión del lenguaje mejora la generalidad y usabilidad del modelo, permitiendo representar una amplia gama de conceptos visuales.

        Un conjunto fijo de conceptos visuales es una representación demasiado simplificada de conceptos visuales debido a la necesidad de que el encabezado de clasificación sea compacto. Por el contrario, el codificador de texto introducido en el formulario de recuperación es capaz de manejar un conjunto de conceptos más grande. El lenguaje natural es semánticamente más rico que cualquier colección de etiquetas conceptuales (por ejemplo, categorías de objetos). La forma de secuencia de texto del lenguaje también permite que el conocimiento externo (por ejemplo, de WordNet y Wikipedia) se represente en el mismo formato que los títulos de imágenes y las etiquetas de conceptos, lo que mejora aún más la cobertura de conceptos.

Aquí hay una introducción a algunos modelos:

Modelos VLP desarrollados para problemas centrales de visión por computadora

        

Un glosario de modelos VLP representativos en tareas básicas de visión. Para el tamaño de los datos, informamos la cantidad de pares de imagen y texto, incluidas las etiquetas de las imágenes y los títulos de las imágenes. IC: Clasificación de imágenes. OD: Detección de objetos. LocNar: narrativa localizada. Golden-G son datos de anotación de referencia de oro híbrido procesados ​​en MDETR. TIC: Aprendizaje Contrastivo Imagen-Texto. WRA: alineación palabra-región. TP: Predicción de etiquetas. SSL: Aprendizaje autodirigido.

        Enumeramos un glosario representativo del modelo VLP, que describe múltiples dimensiones del modelo. En la figura mostramos la evolución de estos modelos VLP a lo largo del tiempo. Esta serie de investigaciones equipa modelos de visión por computadora con capacidades abiertas de reconocimiento visual, abriendo la posibilidad de construir un sistema de visión por computadora ampliamente aplicable con fuertes capacidades de transferencia a nivel de tareas, allanando así el camino para la Visión por Computadora en la Naturaleza (CVinW). .

2. Clasificación de imágenes

Utilizamos Image Caption Matching para la clasificación de imágenes. En este método, definimos un conjunto de datos triplete S = {(xn, tn, yn)}Nn=1 que contiene imágenes y descripciones del idioma correspondiente. donde x ∈

Nuestro objetivo es aprender una representación visual-semántica general y rica que permita alinear correctamente las imágenes con sus descripciones lingüísticas, es decir, lograr una clasificación de imágenes. Para cada imagen x, utilizamos un modelo de codificación de imagen fθ parametrizado como θ para representarla como un vector de características visuales ˜v ∈ RP×1: ˜v = fθ(x). Para cada descripción lingüística t, la codificamos usando un codificador de texto fφ parametrizado como φ, lo que da como resultado un vector de características ˜u ∈ RP×1: ˜u = fφ(t). Tenga en cuenta que ˜v y ˜u son representaciones vectoriales de la imagen y la oración completas, respectivamente.

Para la i-ésima imagen xi y j-ésima descripción del lenguaje tj en un lote B, normalizamos sus vectores de características en una hiperesfera para obtener ui = fθ(xi) / ||fθ(xi) || y vj = fφ(tj ) / ||fφ(tj)||. Luego, calculamos la similitud entre ellos sij = uTi vj. De esta manera, podemos evaluar el grado de coincidencia entre imágenes y descripciones de lenguaje para lograr tareas de clasificación de imágenes.

Los anteriores son los pasos y el proceso de clasificación de imágenes utilizando el método de coincidencia de descripción de imágenes.

Figura 1: Descripción de la imagen que coincide con la clasificación de la imagen

2.1 UniCL

        es un objetivo de aprendizaje contrastivo supervisado bidireccional, que se define en función de la relación de coincidencia entre imágenes y descripciones del lenguaje:

        Entre ellos , τ es un hiperparámetro de temperatura que controla la intensidad del castigo para muestras difíciles de dar resultados negativos. En la Figura 4.2, hay dos imágenes que comparten el mismo lenguaje/concepto "perro" y, según la fórmula UniCL, los elementos correspondientes en la matriz de objetivos de aprendizaje contrastivo están marcados como positivos. Al extender UniCL a 800 millones de muestras de entrenamiento, se puede obtener el modelo Florence de Microsoft, logrando el rendimiento SoTA en muchas tareas al mismo tiempo.

2.2 RECORTAR/ALINEAR

        CLIP/ALIGN se basa en el supuesto de que en un lote, solo existe una relación de mapeo uno a uno entre la imagen y su descripción emparejada, es decir, P(i) = {i} y Q(j) = { j} . Los objetivos de formación de CLIP (Radford et al., 2021) y ALIGN (Jia et al., 2021) son:

        Para el ejemplo de la Figura 1, CLIP o ALIGN solo tratan los elementos diagonales como positivos y todos los elementos fuera de la diagonal como negativos. Lo ideal sería aplicar CLIP o ALIGN a pares imagen-texto que no tengan duplicados en ninguna de las modalidades.

Relacionado con la formulación de problemas de clasificación tradicionales .

Tenga en cuenta que LUniCL está estrechamente relacionado con la pérdida de entropía cruzada estándar utilizada en problemas de clasificación de imágenes supervisadas. Específicamente, el término de contraste de imagen a lenguaje vuelve a la entropía cruzada como un caso especial cuando se cumplen las siguientes tres condiciones. (i) El codificador de texto fφ se representa como una capa de incrustación lineal simple W. (ii) El tamaño del lote |B| es mucho mayor que el número de categorías K, de modo que cuando se utiliza el muestreo aleatorio durante el entrenamiento, los vectores de incorporación de todas las categorías participan en el aprendizaje contrastivo. (iii) τ = 1, y no se realiza ninguna operación de normalización, por lo que ˜u = u y ˜v = v. En la práctica, estas condiciones se satisfacen fácilmente y pueden simplificarse para

        donde ˆy es la etiqueta verdadera de la i-ésima imagen del lote.

Otros métodos de preentrenamiento de imágenes de lenguaje para la clasificación de imágenes.

        Aprender la columna vertebral visual a partir de pares de imagen y texto a escala de red es un tema de investigación emergente. Recientemente, ha aparecido un número cada vez mayor de artículos con el objetivo de mejorar el rendimiento de la clasificación de imágenes de disparo cero/pocos disparos en escenarios prácticos.

• Objetivos de preentrenamiento contrastantes mejorados

FILIP (Yao et al., 2022) introduce un método de aprendizaje guiado de correspondencias léxicas regionales detalladas. PyramidCLIP (Gao et al., 2022b) construye una pirámide de entrada con diferentes niveles semánticos y alinea las dos modalidades de manera jerárquica mediante alineación intra y cruzada. El condicionamiento de prefijo (Saito et al., 2022) introduce el uso de sugerencias con prefijo para combinar datos de título de imagen y etiqueta de imagen, seleccionando la sugerencia adecuada según el tipo de datos. CyCLIP (Goel et al., 2022) demostró que es posible combinar explícitamente la similitud entre dos pares imagen-texto que no coinciden (consistencia intermodal), así como la similitud entre un par imagen-imagen y un par texto-texto. (consistencia interna) simetrización para aprender representaciones consistentes.

• Autosupervisión + objetivo de comparación

DeCLIP (Li et al., 2022j) estudia exhaustivamente múltiples señales autosupervisadas unimodales en pares imagen-texto. SLIP (Mu et al., 2021) estudia la integración del aprendizaje autosupervisado imagen-imagen y el aprendizaje contrastivo imagen-texto. El modelado de imagen/lenguaje ocluido también se ha combinado con el aprendizaje contrastivo de imagen-texto, como MultiMAE (Bachmann et al., 2022) y M3AE (Geng et al., 2022).

• Congelar modelo

LiT (Zhai et al., 2022) introdujo el método de “ajuste contrastivo”, demostrando que bloquear el codificador de imágenes previamente entrenado y ajustar el codificador de texto funciona mejor para la transferencia de disparo cero. Flamingo (Alayrac et al., 2022) aprovecha modelos previamente entrenados para cada modalidad y continúa entrenando previamente módulos intermodales para lograr un rendimiento impresionante en la clasificación de imágenes mediante el aprendizaje contextual.

• Aumentar proporcionalmente

Debido a los buenos resultados mostrados por el entrenamiento previo a escala de red en tareas de visión por computadora, cada vez más estudios exploran el éxito del escalado del modelo VLP. Se propuso BASIC (Pham et al., 2021) para ampliar el marco de aprendizaje comparativo de CLIP y ALIGN en tres dimensiones (tamaño de datos, tamaño de modelo y tamaño de lote), logrando una precisión de muestra cero del 85,7% en ImageNet. LIMoE (Mustafa et al., 2022) es un modelo mixto de expertos dispersos capaz de realizar un aprendizaje multimodal lenguaje-imagen. El modelo Pathways Language and Image (PaLI) (Chen et al., 2022e) descubrió la importancia de escalar conjuntamente los componentes visuales y lingüísticos. Como los modelos de lenguaje Transformer existentes son mucho más grandes que sus contrapartes visuales, PaLI entrenó el ViT más grande hasta la fecha para cuantificar los beneficios de los modelos de visión de mayor capacidad, basado en grandes tareas de preentrenamiento mixtas en varios idiomas y una nueva que contiene más de Imagen- Conjunto de entrenamiento de texto de 10 mil millones de imágenes y texto en 100 idiomas.

En la literatura, existen dos configuraciones experimentales diferentes para evaluar las capacidades de clasificación de imágenes en conjunto abierto de modelos previamente entrenados.

• Migración a nivel de categoría dentro de un único dominio

Los métodos tradicionales de evaluación de transferencia de disparo cero, que se han estudiado durante décadas, predefinen una segmentación manual en un dominio visual determinado, asegurando que los conceptos de evaluación no se observen durante el entrenamiento. Los ejemplos incluyen Animal con atributos (AwA), Caltech-UCSD Birds-200 (CUB), SUN, aPY (Farhadi et al., 2009) y ZS-ImageNet.

• Migración a nivel de tarea

Para demostrar la gran aplicabilidad y generalización de CLIP, Radford y otros (2021) aplicaron directamente puntos de control previamente entrenados para identificar cualquier concepto en aproximadamente 30 conjuntos de datos de clasificación de imágenes públicas en la comunidad. Se informan resultados impresionantes a pesar de que los modelos nunca han observado imágenes en estos conjuntos de datos posteriores. Rápidamente popularizó el método de evaluación de transferencia de tareas de disparo cero para modelos básicos de visión por computadora. Se han propuesto muchas variaciones de CLIP. Pero estos trabajos utilizan diferentes conjuntos de datos posteriores para la evaluación, lo que hace que sus resultados sean imposibles de comparar. El reciente punto de referencia de Clasificación de imágenes en la naturaleza (ICinW) es un intento de evaluación a nivel de tarea y cubre 20 conjuntos de datos públicos (Li et al., 2022b).


Arriba: CLIP entrena previamente un codificador de imágenes y un codificador de texto para predecir qué imágenes se combinan con qué texto en un conjunto de datos/lote. Este comportamiento nos permite transformar CLIP en un clasificador de tiro cero. Convertimos todas las categorías en subtítulos, como "una imagen de un perro", y predecimos la categoría de subtítulo que mejor se adapta a la imagen dada.
Abajo: resultados de predicción del clasificador CLIP de disparo cero en ejemplos de cuatro conjuntos de datos. Esta imagen fue creada en Radford y otros (2021).
 

        Ejemplos de aplicación de modelos lenguaje-imagen en CI. En la figura anterior, ilustramos cómo se puede utilizar un modelo de entrenamiento contrastivo de imagen-texto como CLIP para la clasificación de imágenes de disparo cero. Dado un nuevo conjunto de datos/tarea de IC con un conjunto de nombres de conceptos/categorías, convierta cada concepto en un título utilizando varias plantillas de texto. Los títulos se utilizaron como pistas para que el codificador de texto extrajera representaciones conceptuales. La imagen de consulta se introduce en un codificador de imágenes para extraer una representación visual, que se utiliza para calcular la similitud relacionada con todos los conceptos. El resultado con mayor similitud da una idea de la predicción. En la parte inferior de la figura, se muestran cuatro casos, uno de ImageNet y los otros tres de ICinW, que representan escenarios de CI del mundo real.

3. Detección de objetivos

        Una tarea típica de detección de objetos consta de dos subtareas. Primero, la tarea de localización tiene como objetivo determinar la presencia de un objeto en una imagen e indicar la ubicación con un cuadro delimitador. En segundo lugar, la tarea de reconocimiento determina las categorías de objetos presentes en la región de interés (o cuadro delimitador). La tarea de reconocimiento es similar a la tarea de clasificación de imágenes (Sección 4.2), excepto que la clasificación de imágenes se realiza en toda la imagen en IC, mientras que en OD se realiza en regiones/cuadros individuales. Por lo tanto, siguiendo la forma de convertir la clasificación en recuperación (como se describe en la Sección 4.2), se puede mejorar la transferibilidad de los modelos OD en el reconocimiento de conjuntos abiertos. Específicamente, cada característica de región/cuadro pasará por dos cabezales de predicción, a saber, el clasificador de cuadro y el regresor de cuadro, que se entrenan utilizando la pérdida de clasificación L_cls y la pérdida de localización L_loc respectivamente:

3.1 Modelo de una sola etapa

        En la formulación tradicional de detección de objetos, el clasificador de cajas se implementa utilizando una capa lineal simple, y la pérdida de clasificación Lcls se puede expresar como: 

Aquí, 2 O ∈ RM×d es la característica de objeto/región/caja de la imagen de entrada, W ∈ RK×d es la matriz de peso del clasificador de caja, Scls ∈ RM×K son los logits de clasificación de salida, T ∈ {0 , 1} M × K es el objetivo, M (S; T) es la función de pérdida, como la pérdida focal en el modelo de detección de objetivos de una sola etapa.

        GLIP (Li et al., 2022h) redefine OD como una tarea de localización de frases en lugar de clasificar cada región/cuadro en K categorías. Lo hace posicionando/alineando cada región de la imagen con K frases en el mensaje de texto t. Calcule la puntuación de alineación entre una región en la imagen x y una palabra en la punta t Terreno:

Aquí, P ∈ RL×d son las características contextualizadas de palabra/token del codificador de lenguaje y L es la longitud de la señal de lenguaje t. P juega un papel similar a la matriz de pesos W en (4.9). El modelo de localización que consta de un codificador de imágenes fθ y un codificador de lenguaje fφ se entrena de extremo a extremo minimizando las pérdidas definidas en (4.8) y (4.9) simplemente reemplazando los logits categóricos Scls en (4.9) con (4.10) Región -Puntuación de alineación de palabras Terreno. En la Figura 4.4 mostramos un ejemplo de Sground calculado para 4 pares de región-palabra. Vale la pena señalar que todas las propuestas de cuadro delimitador utilizadas para calcular Sground provienen de una sola imagen. Los pares coincidentes reciben puntuaciones más altas que los pares no coincidentes.

3.2 Modelo de dos etapas

Al refinar el conocimiento del modelo CLIP/ALIGN en un detector de dos etapas, ViLD (Gu et al., 2022d) y RegionCLIP (Zhong et al., 2022) propusieron métodos de detección de objetos de disparo cero. En el detector de dos etapas, se utiliza una red de propuesta de región independiente (RPN) para distinguir el primer plano y el fondo, y su función de pérdida es Lrpn. Dado que Lrpn no utiliza la información semántica de la categoría objetivo, se puede incorporar a la función de pérdida de localización Lloc en la ecuación (4.8). En RegionCLIP, RPN se utiliza para proponer regiones de imágenes para todas las imágenes de un lote, lo que da como resultado un total de N regiones de imágenes. El conjunto de regiones de la imagen está representado por {ri}N i=1. Dada una región propuesta, se genera una representación visual vi de la región ri a través de un codificador visual utilizando un método de agrupación de características (como RoIAlign). RegionCLIP también crea un conjunto de conceptos candidatos para regiones de imágenes, que a menudo son diferentes de los de la imagen completa. Estos conceptos existen en forma de lenguaje natural y están codificados en representaciones semánticas {uk}k=1,...,K mediante un codificador de texto L previamente entrenado, donde K representa el tamaño del conjunto de conceptos. Al aprovechar CLIP previamente entrenado, el concepto de objeto u con la puntuación de coincidencia más alta se selecciona como pseudoetiqueta para cada región r, construyendo así pares de muestras positivas de {u, v}. Utilice un marco de aprendizaje contrastivo similar con una función de pérdida de destilación adicional para entrenar un modelo de detección de objetos.

Otros métodos de preentrenamiento de imagen-lenguaje para la detección de objetos.

Aprender detectores universales de objetos abiertos a partir de pares imagen-texto se ha convertido en un tema cada vez más popular. Similar a GLIP, MDETR (Kamath et al., 2021) reformula el problema de detección como un problema de localización de frases y utiliza una única consulta de texto en toda la imagen. FIBER (Dou et al., 2022a) mejora GLIP, incluido el uso de un proceso de preentrenamiento de grueso a fino y la realización de la fusión en la red troncal en lugar de en el cabezal de detección de objetos. OVR-CNN (Zareian et al., 2021) afina los modelos de imagen-texto para la detección en un vocabulario limitado y se basa en el entrenamiento previo de imagen-texto para generalizar a configuraciones de vocabulario abierto. Detic (Zhou et al., 2022e) mejora el rendimiento de la detección de cola larga bajo una supervisión débil al entrenar el cabezal de clasificación solo en ejemplos con anotaciones a nivel de imagen únicamente. Otros trabajos simultáneos incluyen OV-DETR (Zang et al., 2022), X-DETR (Cai et al., 2022), FindIT (Kuo et al., 2022), PromptDet (Feng et al., 2022) y OWL- ViT (Minderer et al., 2022).

En la literatura, existen dos configuraciones experimentales diferentes que se utilizan para evaluar las capacidades de detección de objetos en conjunto abierto de modelos de detección de objetos previamente entrenados.

Migración a nivel de categoría dentro de un único dominio

Una evaluación común de transferencia de disparo cero en la detección de objetos sigue la configuración de Zareian et al. (2021), donde se predefine una partición artificial en el dominio visual dado, lo que garantiza que no haya superposición conceptual entre el entrenamiento y la evaluación. Por ejemplo, en LVIS (Gupta et al., 2019), se entrenan 866 categorías comunes como categorías base y 337 categorías raras se evalúan como categorías novedosas. En COCO, hay una partición que consta de 48 categorías básicas y 17 categorías novedosas, eliminando 15 categorías que no tienen sinónimos en la jerarquía de WordNet.

• Migración a nivel de tarea

Esta es una configuración cada vez más popular, donde los modelos de detección de objetos previamente entrenados se evalúan de manera cero en múltiples conjuntos de datos. Por ejemplo, inspirado en CLIP, el modelo entrenado con LVIS en ViLD (Gu et al., 2022d) se evaluó en 3 conjuntos de datos, incluidos PASCAL VOC, COCO y Objects365. El reciente punto de referencia ODinW generaliza la evaluación a nivel de tarea a un alcance más integral, con 13 conjuntos de datos originados en Li y otros (2022h) y 35 conjuntos de datos definidos formalmente en Li y otros (2022b).

Casos de aplicación de modelos lenguaje-imagen en la detección de objetivos.

Arriba: GLIP entrena previamente el codificador de imágenes, el codificador de texto y el módulo de fusión para predecir qué regiones del cuadro de imagen se combinan con qué palabras/frases del mensaje de texto. Este comportamiento nos permite convertir GLIP en un detector de objetos de disparo cero. Convertimos todas las categorías del conjunto de datos en títulos mediante concatenación y predecimos la palabra/frase del título que GLIP estima que mejor se combina con el cuadro dado. Abajo: Predicciones de ejemplo en seis conjuntos de datos del detector de objetos GLIP de disparo cero que se muestran en ODinW (Li et al., 2022b). Esta cifra fue creada por Li y otros (2022h).

        

        En la Figura 4.5, mostramos cómo se puede utilizar un modelo de coincidencia de frase-región similar a GLIP para la detección de objetos de disparo cero. Dado un nuevo conjunto de datos/tarea de detección de objetos y su conjunto de nombres de conceptos/categorías, todos los conceptos se convierten en títulos mediante concatenación y se agregan algunas indicaciones de texto simples definidas por el usuario. Los títulos sirven como pistas para que el codificador de texto extraiga representaciones conceptuales. La imagen de consulta se introduce en un codificador de imágenes para extraer una representación visual completa y luego se calcula la similitud con todos los conceptos utilizando un módulo de fusión profunda. Las similitudes que superan un umbral determinado producen predicciones: regiones de interés y el concepto de coincidencia. En la parte inferior de la Figura 4.5, se muestran seis casos de aplicación, todos los cuales se derivan del punto de referencia ODinW y representan escenarios de detección de objetivos del mundo real.

4. Segmentación de imágenes

La segmentación de imágenes implica agrupar píxeles de la imagen y asignar una etiqueta de clase a cada píxel de la imagen. Tomamos la segmentación semántica basada en el lenguaje (LSeg) (Li et al., 2022a) como ejemplo para ilustrar el proceso de segmentación de imágenes, donde las categorías de texto y los píxeles de la imagen están incrustados en un espacio común, y cada píxel se asigna a una categoría semántica. . Para cualquier tarea de segmentación semántica con K etiquetas de categorías, el codificador de texto las incrusta en un espacio vectorial continuo Rd, generando una matriz de incrustación P = [p1, · · · , pK] ∈ RK×d que contiene todas las categorías como salida. Para una imagen x, el codificador de imágenes la codifica en una representación de cuadrícula densa O ∈ RH×W×d, donde H y W especifican las dimensiones espaciales del mapa de características. El tensor de similitud de cuadrícula de palabras se calcula como el producto escalar Sseg = OP ∈ R(H×W)×K.

Figura 6: Coincidencia de frases de píxeles utilizada para la segmentación

        En la Figura 6, mostramos un ejemplo simplificado de Sseg calculado en 4 pares de palabras y cuadrículas. Tenga en cuenta que todas las características de malla utilizadas para calcular Sseg se extraen de una imagen. Los pares coincidentes obtienen una puntuación más alta que los pares no coincidentes. Para un par de ubicaciones determinado, lo minimizamos utilizando softmax por cuadrícula y pérdida de entropía cruzada con escala de temperatura, que es estándar en la segmentación semántica. En LSeg, las características se decodifican utilizando un transformador de predicción denso (Ranftl et al., 2021), y un bloque de regularización espacial final regulariza y limpia espacialmente las predicciones. Dado que los datos emparejados imagen-texto contienen información semántica rica, existen muchos otros métodos de segmentación utilizando modelos de lenguaje-imagen, como se analiza a continuación:

• Segmentación basada en CLIP

Muchos modelos de segmentación adaptan directamente modelos CLIP previamente entrenados a tareas de reconocimiento visual a nivel de píxeles, incluidos PhraseCut (Wu et al., 2020), OpenSeg (Ghiasi et al., 2022), CLIPSeg (L¨uddecke y Ecker, 2022), ZS-Seg (Xu et al., 2021d), MaskCLIP (Zhou et al., 2022a), DenseCLIP (Rao et al., 2021) y MaskCLIP (Ding et al., 2022b). OpenSeg (Ghiasi et al., 2022) también utiliza anotaciones de máscara independientes de la clase para que el aprendizaje de modelos genere propuestas de máscara.

• Formación desde cero

GroupViT (Xu et al., 2022) es una nueva arquitectura Transformer de agrupación jerárquica que aprovecha el mecanismo de autoatención global del Transformer para segmentar la imagen de entrada en grupos progresivamente más grandes de formas arbitrarias. Está preentrenado utilizando una pérdida de contraste de imagen-texto de múltiples etiquetas en aproximadamente 12 millones de pares de imagen-texto. Dado que GroupViT agrupa automáticamente imágenes en segmentos semánticamente similares, su salida se puede convertir fácilmente en segmentación semántica sin necesidad de realizar ajustes.

5. Tendencias en la visión por computadora de campo.

        En las tres subsecciones anteriores, describimos cómo se puede ampliar un modelo de reconocimiento de conjuntos cerrados para realizar tres tareas de reconocimiento de conjuntos abiertos: clasificación de imágenes, detección de objetos y segmentación. La solución es utilizar funciones paramétricas, como modelos de lenguaje neuronal, para representar categorías en lugar de representaciones no paramétricas tradicionales, como incrustaciones de vectores one-hot. Aunque permite el reconocimiento de conjuntos abiertos, el modelo todavía carece de la capacidad de funcionar bien en una amplia gama de tareas posteriores en la naturaleza, donde la apariencia visual de la imagen de entrada y la semántica de la categoría de salida a menudo varían significativamente entre diferentes aplicaciones. diferencia.

Figura 7: Ilustración de la configuración de Computer Vision in the Wild (CVinW), en comparación con otras configuraciones. Este espacio bidimensional se construye con dos dimensiones: imágenes de entrada y conceptos de salida. El diagrama 2D se divide en cuatro cuadrantes según los requisitos entre la fase de desarrollo del modelo y la fase de evaluación del modelo. En el ejemplo proporcionado con la configuración estándar se presentan imágenes naturales con los conceptos "personas, ovejas, perros". Imagen de Li y otros (2022b).

        

        En la Figura 7, utilizamos la definición de Li y otros (2022b) para comparar cuatro configuraciones estudiadas por la comunidad de visión por computadora: configuración de reconocimiento de conjunto cerrado tradicional (cuadrante inferior izquierdo), configuración de reconocimiento de conjunto abierto (cuadrante superior izquierdo), adaptación de dominio. o Configuración fuera de distribución (cuadrante inferior derecho) y configuración CVinW (cuadrante superior derecho). Obviamente, CVinW tiene en cuenta los cambios tanto en el ámbito visual como en el conceptual. De hecho, cualquier tarea de reconocimiento visual se puede definir de forma natural utilizando un conjunto personalizado de conceptos y un dominio visual determinado. Desde esta perspectiva, CVinW considera la transferencia a nivel de tarea, que va más allá de la transferencia a nivel de concepto/categoría que a menudo ocurre en entornos tradicionales de reconocimiento de conjuntos abiertos. En la Figura 4.8, utilizamos la misma imagen de arriba para ilustrar las diferencias entre estas configuraciones.


A continuación se muestra un diagrama esquemático de las diferentes configuraciones de identidad visual.

        El objetivo de desarrollar modelos fundamentales para la visión por computadora en la naturaleza es doble: • Capacidad de transferirse a una amplia gama de nuevas tareas posteriores. Esto significa que los escenarios de aplicación del modelo básico son amplios. Los conjuntos de datos maduros como ImageNet y COCO representan tareas de conjunto cerrado para clasificación de imágenes y detección de objetos, respectivamente. En entornos del mundo real, tanto el dominio visual como el conjunto de conceptos pueden cambiar significativamente más allá de ImageNet y COCO. La evaluación de la eficacia de un modelo base se mide mejor por su aplicabilidad que por su desempeño en una tarea específica. • El costo de adaptación del cambio de tareas es bajo. Una ventaja importante de los modelos base previamente entrenados es que pueden transferirse fácilmente (o de forma económica) a tareas posteriores. Esto significa que la eficiencia de la adaptación del modelo es un factor importante para medir la usabilidad del modelo subyacente. Se debe implementar un buen modelo base con un trabajo de adaptación mínimo. Para medir el costo de adaptación, Li y otros (2022b) definen el costo de adaptación en dos dimensiones ortogonales: eficiencia de la muestra (medida por el número de ejemplos de entrenamiento) y eficiencia de los parámetros (medida por el número de parámetros entrenables). Los conjuntos de datos maduros como ImageNet y COCO no proporcionan configuraciones de evaluación óptimas para los modelos subyacentes. Lograr el rendimiento de SoTA en estos conjuntos de datos a menudo requiere un ajuste exhaustivo del modelo completo, lo que resulta en altos costos de adaptación. Como guía, un modelo base con pesos fijos debería poder realizar bien transferencias cero en muchas tareas posteriores.

        Los métodos para lograr los objetivos anteriores se pueden implementar individualmente para una variedad de tareas de visión por computadora o colectivamente. Cuando se implementa individualmente, la configuración consiste en construir un modelo base separado para cada problema. La mayoría de los modelos VLP descritos en este capítulo entran en esta categoría. Cuando se implementan en conjunto, la configuración es construir un modelo base unificado en todas las tareas. Las tareas de visión por computadora requieren procesamiento de imágenes en diferentes niveles de granularidad (imagen, región, píxel), lo que dificulta la unificación de las tareas. La construcción de un sistema de inteligencia artificial que pueda utilizar datos visual-lingüísticos en diferentes niveles de granularidad para buscar el equilibrio óptimo entre la escala de datos y la riqueza semántica sigue siendo un tema de investigación atractivo.

6. Resumen y temas avanzados

A medida que la literatura VLP sobre problemas centrales de la visión por computadora crece rápidamente, surgen cada vez más artículos y temas de investigación interesantes, como se describe en la Figura 4.9. A continuación, analizamos brevemente algunos temas importantes como: modelos visuales de conocimiento aumentado, modelos de imágenes de lenguaje multilingüe, adaptabilidad de modelos eficientes y robustos, evaluación comparativa, etc.

• Modelos visuales mejorados por el conocimiento. Los codificadores de texto son posiblemente el componente más exclusivo de los sistemas de visión por computadora con lenguaje aumentado recientemente desarrollados. Por lo tanto, mejorar la capacidad de codificar texto es muy importante para las tareas básicas de reconocimiento visual. K-LITE (Shen et al., 2022a) enriquece entidades en lenguaje natural utilizando la base de conocimientos de WordNet/Wikipedia, proporcionando una forma escalable de transferencia de cero y pocos disparos en clasificación de imágenes y detección de objetos Aprenda una amplia gama de nuevas tareas. En comparación con CLIP/UniCL/GLIP, K-LITE es más eficiente en el entrenamiento previo. Tian y otros (2021) exploran el uso de conocimiento externo para mejorar el reconocimiento visual de cola larga dentro de un solo dominio, lo que se incluye en la categoría de transferencia a nivel de categoría.

• Comparación idioma-imagen multilingüe. El éxito del uso de subtítulos en inglés para el aprendizaje contrastivo entre imagen y texto inspiró el uso de otras fuentes lingüísticas. MURAL (Jain et al., 2021) está previamente capacitado en pares imagen-texto multilingües desde cero, incluida la pérdida de contraste de imagen a texto y la pérdida de contraste de texto a texto entre diferentes idiomas. A partir del CLIP original en inglés, Carlsson y otros (2022) entrenaron un codificador específico del idioma manteniendo su codificador de imágenes sin cambios. Los modelos comparativos de imagen-lengua para otras variedades multilingües/bilingües/monolingües incluyen el coreano (Ko y Gu, 2022), el italiano (Bianchi et al., 2021), el ruso (Shonenkov et al., 2022) y el chino (Gu et al. , 2022a).

• Métodos de adaptación eficientes. A medida que crece el tamaño del modelo, se convierte en un problema cómo adaptar eficazmente los modelos previamente entrenados a diversas tareas posteriores. Investigación sobre la eficiencia de la muestra (p. ej., muestra cero y pocos disparos) y la eficiencia de los parámetros (p. ej., ajuste de señales, sondeo lineal y ajuste fino del modelo completo). Para los modelos VLP, brinda oportunidades únicas para aprovechar los codificadores de texto para la adaptación del modelo, incluido el aprendizaje de señales condicionales (Zhou et al., 2022b), el ajuste de señales de color (CPT) (Yao et al., 2021), el adaptador VL (Sung et al. al., 2022b) y adaptador CLIP (Gao et al., 2021). En He et al. (2022) se puede encontrar un estudio exhaustivo sobre la eficiencia de los parámetros.

• robustez. Wortsman y otros (2022) estudiaron un ajuste sólido de modelos de disparo cero. Fang y otros (2022a) informan que en CLIP, los datos determinan la solidez distributiva. El ajuste fino de CLIP distorsiona las funciones previamente entrenadas y tiene un rendimiento deficiente fuera de la distribución (Kumar et al., 2022). El artículo original de CLIP informa que cuando el tamaño de la muestra es pequeño, pocas muestras son menos efectivas que cero muestras. Por el contrario, Li y otros (2022b) demostraron que el CLIP de pocos disparos siempre supera al CLIP de disparo cero cuando se utilizan correctamente codificadores de texto previamente entrenados para la adaptación del modelo.

• Puntos de referencia. Transferir de manera eficiente y evaluar de manera justa modelos de visión con lenguaje aumentado previamente entrenados a conjuntos de datos y tareas posteriores sigue siendo un desafío. ELEVATER (Li et al., 2022b) proporciona una plataforma de evaluación para modelos visuales con lenguaje aumentado. ELEVATER incluye un conjunto de datos y un conjunto de herramientas fácil de usar para evaluar las capacidades de transferencia a nivel de tarea de modelos de visión previamente entrenados, a diferencia de los puntos de referencia tradicionales para evaluar la transferencia de disparo cero a nivel de categoría. Se utiliza en los desafíos ICinW y ODinW antes mencionados para proporcionar un campo de juego común para la visión por computadora en la naturaleza.

• Reconocimiento de relaciones visuales abiertas. La idea del reconocimiento abierto se ha extendido a tareas de reconocimiento más visual, como la detección de relaciones. El preentrenamiento de lenguaje relacional-imagen (RLIP) (Yuan et al., 2022) mejora el rendimiento de detección de interacción humano-objeto (HOI) de disparo cero, de pocos disparos y afinada y mejora la solidez del aprendizaje a partir de anotaciones ruidosas.

• Clasificación de vídeos abiertos. La clasificación de vídeo de vocabulario abierto multimodal (MOV) (Qian et al., 2022) propone un codificador visual que utiliza un modelo de imagen de texto previamente entrenado para codificar espectrogramas de vídeo, flujo óptico y audio con modificaciones mínimas, y diseña una fusión modal intermodal. mecanismo para agregar información multimodal complementaria. X-CLIP (Ni et al., 2022) adapta modelos de imágenes de texto previamente entrenados al reconocimiento de video. Utiliza un mecanismo de atención entre fotogramas para intercambiar explícitamente información entre fotogramas y utiliza un esquema de sugerencias específico de vídeo para aprovechar la información del contenido del vídeo para generar sugerencias textuales discriminativas. Para los lectores interesados ​​en "Computer Vision in the Wild" (es decir, VLP utilizado para tareas básicas de visión), pueden consultar GitHub - Computer-Vision-in-the-Wild/CVinW_Readings: una colección de artículos sobre el tema "Computer Vision in the Wild" (es decir, VLP utilizado para tareas básicas de visión). Visión en La última lista de lectura de CVinW sobre .

referencia:

  Preformación Visión-Lenguaje: Conceptos Básicos, Avances Recientes y Tendencias Futuras

Supongo que te gusta

Origin blog.csdn.net/qq_41458274/article/details/133280172
Recomendado
Clasificación