Resumen de recuperación intermodal de los últimos artículos de conferencias importantes en 2023

Este artículo resume principalmente varios artículos de la última conferencia importante sobre recuperación intermodal en 2023.

Recuperación eficiente de imágenes y textos guiada por tokens con entrenamiento contrastivo multimodal consistente

https://arxiv.org/abs/2306.08789
Recuperación eficiente de texto e imagen guiada por etiquetas utilizando un código de entrenamiento contrastivo multimodal consistente
está disponible públicamente: https://github.com/LCFractal/TGDT

La recuperación de imágenes y textos es un problema central para comprender la relación semántica entre visión y lenguaje y es la base para diversas tareas visuales y lingüísticas. La mayoría de los trabajos anteriores simplemente aprenden representaciones generales de la imagen y el texto en general, o establecen cuidadosamente correspondencias entre regiones o píxeles de la imagen y el vocabulario del texto. Sin embargo, la estrecha relación entre las representaciones de grano grueso y fino de cada modalidad es muy importante para la recuperación de imágenes y textos, pero casi se ha ignorado. Por lo tanto, estos trabajos previos inevitablemente adolecen de una baja precisión de recuperación o un alto costo computacional. En este trabajo, abordamos el problema de la recuperación de imágenes y texto desde una nueva perspectiva combinando el aprendizaje de representación de grano grueso y fino en un marco unificado. Este marco es consistente con la cognición humana porque los humanos se enfocan simultáneamente en toda la muestra y los elementos regionales para comprender el contenido semántico. Con este fin, proponemos una arquitectura de transformador dual guiado por token (TGDT) que consta de dos ramas homogéneas, respectivamente para las modalidades de imagen y texto, para la recuperación de imagen-texto . TGDT incorpora la recuperación de grano grueso y de grano fino en un marco unificado y utiliza de manera beneficiosa las ventajas de ambos métodos de recuperación. En consecuencia, se propone un nuevo objetivo de entrenamiento, a saber, la pérdida contrastiva multimodal consistente (CMC), para garantizar la consistencia semántica de imágenes y texto dentro y entre modalidades en un espacio de incrustación común. Basado en similitudes híbridas intermodales globales y locales, el método propuesto logra un rendimiento de recuperación de última generación con un tiempo de inferencia extremadamente corto en comparación con los métodos representativos recientes.

Modelos de texto-visión contrastantes mejorados con recuperación

https://arxiv.org/abs/2306.07196
Recuperar modelo de texto visual de contraste mejorado

Los modelos contrastantes de imagen-texto, como CLIP, forman parte integral de muchos sistemas de última generación. Si bien son buenos para identificar conceptos generales comunes, todavía tienen dificultades con entidades detalladas que son raras o incluso ausentes en el conjunto de datos previamente entrenado. Por lo tanto, un factor clave de su éxito es el uso de la curación a gran escala de datos previos al entrenamiento, con el objetivo de ampliar el conjunto de conceptos que pueden memorizar durante la etapa previa al entrenamiento. En este trabajo, exploramos una alternativa para codificar conocimiento detallado directamente en los parámetros del modelo: en su lugar, entrenamos el modelo para recuperar este conocimiento de la memoria externa. Específicamente, proponemos brindar a los modelos de texto visual existentes la capacidad de refinar sus incrustaciones con información multimodal recuperada de la memoria en el momento de la inferencia, lo que mejora significativamente sus predicciones de tiro cero. Sorprendentemente, demostramos que esto se puede lograr con un transformador de fusión encima de un CLIP congelado, liviano y de una sola capa. Nuestros experimentos verifican que nuestro entrenamiento de Recuperación de Contraste Mejorado (RECO) mejora sustancialmente el rendimiento de CLIP en varias tareas complejas y detalladas: por ejemplo, +10,9 en Stanford Cars, +10,2 en CUB-2011, +7,3 en el punto de referencia OVEN más reciente.

La automejora mejora la recuperación de imágenes y texto en modelos básicos de lenguaje visual

https://arxiv.org/abs/2306.06691
El autorrefuerzo mejora la recuperación de imágenes y texto en modelos básicos de lenguaje visualAceptado
por CVPR 2023

La aparición de modelos base intermodales ha introducido muchos métodos basados ​​en la recuperación de texto-imagen. Sin embargo, en algunas tareas de recuperación de dominios específicos, estos modelos no se centran en los atributos clave requeridos. Para abordar este problema, proponemos un marco A3R autoaumentado basado en CLIP-ViT/G-14 , que es uno de los modelos intermodales más grandes. Primero, antes del aprendizaje del modelo, realizamos una estrategia de mejora de atributos para enriquecer la representación detallada de las descripciones de texto. Luego, proponemos un método de reordenamiento adaptativo para unificar los espacios de representación de consultas de texto e imágenes candidatas, y confiamos en consultas adaptativas para reorganizar las imágenes candidatas después del aprendizaje del modelo. Después de la verificación, nuestro marco propuesto logró mejoras más sobresalientes que la línea de base y las soluciones de otros equipos sin introducir muestras adicionales en la pista de recuperación de imágenes intermodales del primer Desafío de modelo básico. El código está en https://github.com/CapricornGuang/A3R .

ConaCLIP: Exploración de la destilación de un gráfico de interacción de conocimiento totalmente conectado para una recuperación ligera de texto e imagen

https://arxiv.org/abs/2305.17652
ConaCLIP: Exploración del método de extracción de un gráfico de interacción de conocimiento completamente conectado para la recuperación ligera de imágenes y texto
ACL 2023 Industry Track

Los modelos de imágenes de texto previamente entrenados a gran escala con arquitecturas de codificador dual (por ejemplo, CLIP) se usan comúnmente en diversas aplicaciones de lenguaje visual, incluida la recuperación de imágenes de texto. Sin embargo, estos modelos todavía no son muy prácticos en dispositivos de borde o en situaciones de tiempo real debido al gran tiempo de indexación e inferencia y al gran consumo de recursos informáticos. Aunque las técnicas de destilación de conocimientos se han utilizado ampliamente para la compresión de modelos monomodo, rara vez se ha estudiado cómo ampliarlas hasta duplicar el número de profesores/estudiantes. En este artículo, llevamos a cabo experimentos integrales sobre este tema y proponemos una técnica de gráfico de interacción de conocimiento (CONA) completamente conectada para la destilación previa al entrenamiento intermodal. Según nuestros hallazgos, el Conaclip resultante logra un rendimiento SOTA en los puntos de referencia FlickR30K y MSCOCO, ampliamente utilizados, en configuraciones livianas. La aplicación industrial de nuestro método en una plataforma de comercio electrónico demuestra aún más el importante efecto de Conaclip.

Reclasificación basada en pilares que se puede aprender para la recuperación de imágenes y textos

https://arxiv.org/abs/2304.12570
Reordenamiento de recuperación de texto e imagen basado en columnas aprendibles aceptado
por SIGIR2023

El propósito de la recuperación de imagen-texto es cerrar la brecha entre modos y recuperar contenido intermodal basado en similitud semántica. El trabajo anterior generalmente se centra en las relaciones por pares (es decir, si una muestra de datos coincide con otra), pero ignora las relaciones vecinas de orden superior (es decir, la estructura de coincidencia entre múltiples muestras de datos). El reordenamiento es una práctica popular de posprocesamiento que revela la superioridad de capturar relaciones de proximidad en tareas de recuperación unimodales. Sin embargo, extender directamente los algoritmos de reordenamiento existentes a la recuperación de imágenes y textos es ineficaz. En este artículo, analizamos las razones desde cuatro aspectos, a saber, generalización, flexibilidad, escasez y asimetría, y proponemos un nuevo paradigma de reordenamiento basado en pilares que se pueda aprender . Específicamente, primero seleccionamos a los vecinos intra e intermodales mejor clasificados como pilares, y luego utilizamos sus relaciones de vecinos con los pilares para reconstruir las muestras de datos. De esta manera, cada muestra se puede mapear en el espacio de pilares multimodal utilizando solo similitud, asegurando así la generalización. Posteriormente, diseñamos un módulo de razonamiento gráfico consciente del vecindario para utilizar de manera flexible estas relaciones para extraer elementos positivos escasos en el vecindario. También proponemos una restricción de alineación estructural para facilitar la colaboración intermodal y alinear modalidades asimétricas. Sobre la base de varios esqueletos básicos, llevamos a cabo experimentos extensos en dos conjuntos de datos de referencia, a saber, Flickr30K y MS-COCO, demostrando la efectividad, superioridad, generalidad y transferibilidad de nuestro paradigma de reclasificación propuesto.

Repensar los puntos de referencia para la recuperación intermodal de imágenes y textos

https://arxiv.org/abs/2304.10824
Repensar los puntos de referencia de recuperación de texto e imágenes multimodales
aceptados por SIGIR2023

La recuperación de imágenes y textos, como rama básica e importante de la recuperación de información, ha atraído una amplia atención de la investigación. El principal desafío en esta tarea es la comprensión y el emparejamiento semántico intermodal. Algunos trabajos de investigación recientes se centran más en la coincidencia semántica intermodal detallada. Con la prevalencia de modelos preentrenados multimodales a gran escala, algunos modelos de última generación (como X-VLM) logran resultados cercanos en puntos de referencia de recuperación de imágenes y texto ampliamente utilizados, a saber, MSCOCO-Test-5K y Flickr30K-Test-1K Rendimiento perfecto. En este artículo, revisamos estos dos puntos de referencia comunes y observamos que son insuficientes para evaluar las verdaderas capacidades de los modelos de coincidencia semántica intermodal detallada. La razón es que una gran cantidad de imágenes y textos en el punto de referencia son de grano grueso. Con base en esta observación, renovamos las imágenes y el texto de grano grueso en las líneas de base antiguas y establecimos líneas de base mejoradas llamadas MSCOCO-FG y Flickr30K-FG . Específicamente, en términos de imágenes, ampliamos la biblioteca de imágenes original adoptando imágenes más similares. En cuanto al texto, proponemos un novedoso método de renovación semiautomático para refinar oraciones gruesas en oraciones más finas con poco esfuerzo humano. Además, evaluamos modelos representativos de recuperación de imágenes y textos en nuevos puntos de referencia para demostrar la eficacia de nuestro enfoque. También analizamos las capacidades del modelo en comprensión semántica detallada a través de extensos experimentos. Los resultados muestran que incluso los modelos más modernos tienen un margen considerable de mejora en la comprensión semántica detallada, especialmente en la distinción de atributos de objetos cercanos en imágenes. Nuestro código y conjunto de datos de referencia mejorados están disponibles públicamente en: https://github.com/cwj1412/MSCOCO-Flikcr30K_FG , que esperamos inspire más investigaciones en profundidad sobre la recuperación intermodal.

Recuperación de imagen y texto mediante la preservación de la semántica principal de la visión

https://arxiv.org/abs/2304.10254
Recuperación de imagen-texto preservando la principal semántica de la visión
aceptada por ICME2023

La recuperación de imágenes y texto es una de las principales tareas de la recuperación intermodal. Algunos métodos para esta tarea asignan imágenes y texto a un espacio común, estableciendo correspondencia entre las dos modalidades. Sin embargo, debido a la riqueza del contenido de la imagen (semántica), la información secundaria redundante en las imágenes puede dar lugar a coincidencias falsas. Para resolver este problema, este artículo propone un método de optimización semántica, implementado como pérdida semántica visual (VSL), para ayudar al modelo a centrarse en el contenido principal de la imagen . Este método se inspira en el hecho de que las personas suelen anotar imágenes describiendo su contenido principal. Por lo tanto, utilizamos texto de anotación correspondiente a la imagen para ayudar al modelo a capturar el contenido principal de la imagen y reducir el impacto negativo del contenido secundario. Amplios experimentos en dos conjuntos de datos de referencia (MSCOCO y Flickr30K) demuestran el rendimiento superior de nuestro método. Vea el código: https://github.com/ZhangXu0963/VSL .

Recuperación eficiente de imágenes y texto mediante una selección previa guiada por palabras clave

https://arxiv.org/abs/2303.07740
Recuperación eficiente de imágenes y textos mediante una selección previa guiada por palabras clave

Si bien el rendimiento está en auge, los métodos actuales de recuperación de texto de imágenes sufren de una complejidad temporal relacionada con N, lo que dificulta su aplicación en la práctica. **Este artículo tiene como objetivo mejorar la eficiencia y propone un marco de preselección guiado por palabras clave simple y eficaz para la recuperación de imágenes y texto. **Específicamente, convertimos datos de imágenes y texto en palabras clave y realizamos una coincidencia multimodal de palabras clave para excluir una gran cantidad de muestras de galería irrelevantes antes de recuperar la red. Para la predicción de palabras clave, lo transformamos en un problema de clasificación de etiquetas múltiples y proponemos un esquema de aprendizaje de tareas múltiples para adjuntar el clasificador de etiquetas múltiples a la red de recuperación de texto de imagen para lograr una predicción de palabras clave liviana y de alto rendimiento. En términos de concordancia de palabras clave, introdujimos un índice invertido en el motor de búsqueda, creando una situación beneficiosa para todos en términos de complejidad temporal y espacial de la preselección. Amplios experimentos en dos conjuntos de datos ampliamente utilizados, a saber, Flickr30K y MS-COCO, verifican la eficacia del marco propuesto. El marco propuesto está equipado con solo dos capas de incrustación y logra una complejidad de tiempo de consulta de O (1) al tiempo que mejora la eficiencia de recuperación y mantiene su rendimiento antes de aplicarse a métodos comunes de recuperación de imágenes y texto. Nuestro código será liberado.

Aumento de preservación semántica para una recuperación sólida de imágenes y textos

https://arxiv.org/abs/2303.05692
Algoritmo robusto de mejora de recuperación de imágenes y texto basado en la preservación semánticaAceptado
en ICASSP 2023

La recuperación de textos de imágenes es la tarea de buscar descripciones textuales apropiadas del mundo visual y viceversa. Un desafío de esta tarea es la susceptibilidad a la corrupción de las imágenes y el texto de entrada. Este daño a menudo pasa desapercibido durante el entrenamiento y reduce significativamente la calidad de la decisión del modelo de recuperación. En este artículo, proponemos una nueva técnica de recuperación de texto de imágenes llamada Robust Visual Semantic Embedding (RVSE), que consiste en una nueva técnica de mejora basada en imágenes y texto llamada Aumento semántico preservado de imágenes (SPAugI) y mejora de texto (SPAugT). Dado que SPAugI y SPAugT alteran los datos originales de una manera que preserva la información semántica, forzamos al extractor de características a generar vectores de incrustación con reconocimiento semántico independientemente de la corrupción, mejorando así en gran medida la solidez del modelo. Al realizar experimentos extensos utilizando conjuntos de datos de referencia, demostramos que RVSE supera a los esquemas de recuperación tradicionales en términos de rendimiento de recuperación de imágenes y texto.

El transformador de estilo con optimización de conocimiento común para la recuperación de texto de imagen

https://arxiv.org/abs/2303.00448
Transformador de estilo con optimización de sentido común para recuperación de texto de imagen

La recuperación de imágenes y textos que vinculan diferentes modalidades ha atraído una gran atención debido a su excelente valor de investigación y su amplia gama de aplicaciones en el mundo real. Sin embargo, la mayoría de los métodos existentes no tienen plenamente en cuenta las relaciones semánticas de alto nivel (“incrustaciones de estilo”) y el conocimiento común multimodal. Con este fin, presentamos una red de transformadores de estilo novedoso con optimización de sentido común (CKSTN) para la recuperación de imágenes y texto. Su módulo principal es Common Sense Adapter (CKA), que incluye dos módulos: Style Embedding Extractor (SEE) y Common Sense Optimization (CKO). Específicamente, SEE utiliza una estrategia de actualización secuencial para conectar de manera efectiva funciones en diferentes etapas de SEE. El módulo CKO se introduce para capturar dinámicamente los conceptos subyacentes del sentido común desde diferentes modos. Además, para obtener sentido común temporal generalizado, proponemos una estrategia de actualización secuencial para integrar de manera efectiva características en diferentes niveles en SEE con unidades de características comunes anteriores. CKSTN demuestra las ventajas de los métodos de última generación en la recuperación de texto de imágenes en conjuntos de datos MSCOCO y Flickr30K. Además, CKSTN está construido sobre la base de un transformador liviano. Debido a su mejor rendimiento y parámetros más bajos, es más conveniente y práctico de aplicar en escenarios reales.

VITR: aumento de los transformadores de visión con aprendizaje centrado en las relaciones para la recuperación de información multimodal

https://arxiv.org/abs/2302.06350
VITR: un transformador visual que mejora la recuperación de información intermodal con aprendizaje centrado en las relaciones

La recuperación de información intermodal centrada en las relaciones se centra en la recuperación de información basada en las relaciones expresadas en las consultas de los usuarios, y es particularmente importante en aplicaciones de recuperación de información y motores de búsqueda de próxima generación. Mientras que las redes previamente entrenadas como Contrastive Language-Image Pretraining (CLIP) logran un rendimiento de vanguardia en tareas de aprendizaje intermodal, el transformador visual (ViT) utilizado en estas redes adolece de la capacidad de centrarse en las relaciones imagen-región. limitado. Específicamente, ViT está capacitado para hacer coincidir imágenes con descripciones relevantes a nivel global, independientemente de la coherencia entre las regiones de la imagen y las descripciones. Este artículo presenta VITR, una red novedosa que mejora ViT mediante la extracción y el razonamiento sobre las relaciones de las regiones de la imagen basadas en codificadores locales. VITR consta de dos partes principales: (1) Ampliar las capacidades de las redes intermodales basadas en ViT para extraer y razonar sobre relaciones regionales en imágenes; (2) Agregar resultados de razonamiento con conocimiento global para predecir relaciones entre imágenes y descripciones Puntuación de similitud. Los experimentos se llevan a cabo aplicando la red propuesta a tareas de recuperación de información intermodal centradas en relaciones en conjuntos de datos Flickr30K, RefCOCOg y CLEVR. Los resultados experimentales muestran que la red VITR propuesta supera a otras redes de última generación, incluidas CLIP, VSE∞ y VSRN++, en tareas de recuperación de información intermodal de imagen a texto y de texto a imagen.

LexLIP: preentrenamiento de imágenes y lenguaje con cuellos de botella de léxico para la recuperación de textos e imágenes a gran escala

https://arxiv.org/abs/2302.02908
LexLIP: preentrenamiento de imágenes y lenguajes de cuello de botella de diccionario para la recuperación de textos e imágenes a gran escala

La recuperación de imagen-texto (ITR) es la tarea de recuperar imágenes/texto relevantes de una consulta de otra modalidad. El paradigma tradicional de recuperación densa se basa en el uso de codificadores de doble flujo para codificar imágenes y texto en representaciones densas; sin embargo, enfrenta el desafío de la baja velocidad de recuperación en escenarios de recuperación a gran escala. En este trabajo, proponemos un paradigma ponderado léxicamente que aprende representaciones dispersas del espacio léxico para imágenes y textos para aprovechar modelos de bolsa de palabras y una indexación invertida eficiente, reduciendo así significativamente la latencia de recuperación. Una brecha clave surge de la naturaleza continua de los datos de imágenes y el requisito de una representación espacial de vocabulario escasa. Para cerrar esta brecha, presentamos un nuevo marco de preentrenamiento, Lexicon-Bottleneck Language-Image Pre-training (LexLIP), que puede aprender representaciones de léxico conscientes de la importancia. Este marco presenta un módulo de cuello de botella de vocabulario entre el codificador de doble flujo y el decodificador de texto atenuado, lo que permite la construcción de cuellos de botella continuos de bolsa de vocabulario para aprender distribuciones de importancia del vocabulario. Después de un entrenamiento previo con la misma escala de datos, nuestro LexLIP logra un rendimiento de vanguardia en dos conjuntos de datos ITR de referencia, MSCOCO y Flickr30k. Además, en escenarios de recuperación a gran escala, LexLIP supera a CLIP con entre 5,5 y 221,3 veces la velocidad de recuperación y entre 13,2 y 48,8 veces la memoria de almacenamiento de índice.

Supongo que te gusta

Origin blog.csdn.net/zag666/article/details/131339192
Recomendado
Clasificación