Paper Express: AAAI 2023 | Youtu 16 artículos de un vistazo, incluida la clasificación de etiquetas múltiples, la estimación de poses, la detección de objetivos, el HOI, el aprendizaje de muestras pequeñas y otras direcciones de investigación

Recientemente, AAAI 2023 (Asociación para el Avance de la Inteligencia Artificial) Asociación Internacional para la Inteligencia Artificial Avanzada anunció los resultados de aceptación Se presentaron un total de 8777 documentos para esta sesión y se aceptaron 1721 documentos, con una tasa de aceptación del 19,6 %.

AAAI es una de las principales organizaciones académicas en el campo de la inteligencia artificial.Es una organización científica internacional sin fines de lucro que tiene como objetivo promover la investigación y la aplicación en el campo de la inteligencia artificial y mejorar la comprensión pública de la inteligencia artificial. La conferencia comenzó en 1980, centrándose tanto en la teoría como en la aplicación, y también discutiendo temas sociales, filosóficos, económicos y otros que tienen un impacto importante en el desarrollo de la inteligencia artificial.

Este año, Tencent Youtu Lab tiene 16 artículos seleccionados, que cubren direcciones de investigación como clasificación de etiquetas múltiples, estimación de poses, detección de objetivos, HOI, aprendizaje de muestras pequeñas, etc., lo que demuestra las capacidades técnicas y los logros académicos de Tencent Youtu en el campo de la inteligencia artificial. .

La siguiente es una descripción general de los documentos seleccionados por Tencent Youtu Lab:

01

Hacia el reconocimiento de expresiones faciales con ruido etiquetado

El ataque puede beneficiar: un adversario 

Enfoque para reconocer expresiones faciales bajo anotaciones ruidosas

Los conjuntos de datos de expresiones faciales a gran escala suelen presentar problemas extremos de etiquetas ruidosas, y los modelos tienden a sobreajustarse a las muestras de etiquetas ruidosas. Al mismo tiempo, el conjunto de datos de expresiones faciales también muestra un desequilibrio extremo en la distribución de categorías. Los dos problemas se acoplan entre sí, lo que dificulta resolver el problema de las etiquetas ruidosas en los datos de reconocimiento de expresiones faciales.

En este artículo, proponemos un método novedoso de localización y reetiquetado de etiquetas ruidosas que utiliza ataques adversarios para localizar muestras de etiquetas ruidosas. En primer lugar, para aliviar el impacto del desequilibrio en la distribución de datos, este documento propone una estrategia de divide y vencerás para dividir todo el conjunto de entrenamiento en dos subconjuntos relativamente equilibrados.

En segundo lugar, según dos observaciones (1) para redes neuronales convolucionales profundas entrenadas con etiquetas ruidosas, los datos cerca del límite de decisión son más indistinguibles y es más probable que estén mal etiquetados; (2) la memoria de la red de etiquetas ruidosas puede conducir a debilidades significativas para los adversarios , diseñamos un método de estimación de vulnerabilidad adversarial consciente de la geometría que puede descubrir más datos atacables en el conjunto de entrenamiento y etiquetarlos como muestras de ruido candidatas. Finalmente, los datos limpios restantes se utilizan para volver a etiquetar estas muestras de ruido candidatas.

Los resultados experimentales muestran que nuestro método logra SOTA, y los resultados de visualización asociados también demuestran las ventajas del método propuesto.

02

Investigación sobre la solidez del aprendizaje federado frente a

Profundizando en el adversario 

Solidez del aprendizaje federado

Al igual que los modelos entrenados de forma centralizada, los modelos entrenados de aprendizaje federado (FL) también carecen de robustez contradictoria. Este documento analiza principalmente la robustez contradictoria en el aprendizaje federado. Para comprender mejor la solidez de los métodos FL existentes, evaluamos varios ataques adversarios y métodos de entrenamiento adversarios.

Además, revelamos la desventaja de adoptar directamente el entrenamiento contradictorio en FL, a saber, que puede comprometer gravemente la precisión en ejemplos limpios, especialmente en entornos que no son IID. En este trabajo, proponemos un método de entrenamiento adversarial federado basado en límites de decisión (DBFAT), que consta de dos componentes (a saber, reponderación local y regularización global) para mejorar la precisión y la solidez de los sistemas FL.

Extensos experimentos en múltiples conjuntos de datos muestran que DBFAT supera consistentemente a otros métodos de referencia tanto en entornos IID como no IID.

03

 TaCo: un aprendizaje contrastivo basado

Método de reconocimiento de atributos de texto

TaCo: reconocimiento de atributos textuales 

a través del aprendizaje contrastivo

Con la aceleración continua del proceso de digitalización de la oficina, la tecnología de inteligencia artificial se utiliza para analizar de forma automática, rápida y precisa el contenido de las imágenes de los documentos de entrada, y comprender, extraer y resumir aún más, es decir, la inteligencia de documentos (DocAI), que actualmente es un cruce entre la visión por computadora y el procesamiento del lenguaje natural Una dirección de investigación popular del tema. En los escenarios comerciales reales de Youtu, la tecnología de inteligencia de documentos ha producido un buen valor comercial y ha desempeñado un papel clave en la comprensión de formularios, el análisis de diseño y otros escenarios. El atributo multimodal único de los documentos visualmente ricos, es decir, el alto acoplamiento del contenido del texto, la información de la imagen y el diseño general del documento, no solo aumenta la complejidad del problema, sino que también brinda un nuevo enfoque para la innovación tecnológica.

El texto es un importante portador de información. Además del contenido, sus diversos atributos visuales, como fuente/color/cursiva/negrita/subrayado, también transmiten las ideas e ideas del diseñador. Si se pueden obtener atributos visuales precisos del texto, ayudará directamente a los profesionales del diseño a obtener rápidamente materiales y desarrollar herramientas eficientes, como la conversión de imágenes de documentos a Word. Sin embargo, miles de fuentes chinas e inglesas, combinadas con un diseño de color abierto y varios estados, como negrita y cursiva, incluso para los expertos en diseño de texto, es un gran desafío juzgar con precisión los atributos visuales del texto. Por lo tanto, el desarrollo de la capacidad de reconocer los atributos visuales del texto tiene el potencial de permitir una amplia gama de aplicaciones.

Diseñar un sistema de reconocimiento de atributos visuales de texto no es tan simple como se imagina, porque la diferencia entre los atributos visuales de texto suele ser sutil. Tomando las fuentes como ejemplo, a menudo solo hay diferencias sutiles en los detalles locales entre dos fuentes diferentes. Los nuevos estilos de texto cada vez mayores exacerban aún más la dificultad del reconocimiento y también plantean requisitos más altos para la generalización del sistema. Además, observamos en la práctica que incluso los archivos PDF escaneados y las imágenes bien tomadas introducen ruido y desenfoque, lo que dificulta la distinción de los detalles locales finos y dificulta la partición en el espacio de funciones.

Desde el punto de vista del algoritmo, el reconocimiento de atributos visuales de texto se puede definir como un problema de clasificación de etiquetas múltiples, imágenes de texto de entrada y salida de cada atributo visual del texto. Las soluciones de arte existentes se pueden dividir en tres categorías: 1) Métodos basados ​​en descriptores de características hechos a mano y coincidencia de plantillas. Por lo general, diferentes atributos de texto tienen diferentes estilos visuales, que se pueden describir e identificar a través de características estadísticas; 2) método de clasificación basado en redes neuronales profundas, que utiliza la red para extraer características y se utiliza para el reconocimiento; 3) método de reconocimiento de atributos basado en secuencias. Según la observación de la escena real, varios caracteres en una sola línea de texto suelen tener atributos coherentes. Al tratar la imagen de entrada como una secuencia continua de señales y modelar la correlación temporal, la información relevante y la coherencia semántica entre los caracteres se pueden utilizar para mejorar el efecto de reconocimiento.

Desafortunadamente, las soluciones anteriores sufren de: 1) El proceso de preprocesamiento de datos es complicado. Los métodos supervisados ​​se basan en una gran cantidad de datos etiquetados por expertos; 2) poca escalabilidad y solo admiten algunas categorías predefinidas; 3) baja precisión, es difícil capturar las diferencias sutiles de atributos similares en escenarios reales.

Con base en las observaciones anteriores, diseñamos el sistema TaCo (Reconocimiento de atributos textuales a través del aprendizaje contrastivo) para cerrar la brecha.

04

Basado en el codificador automático twin cloze

Método de preentrenamiento de visión autosupervisado

El Diablo está en la Frecuencia: 

Autocodificador Gestalt Geminado para 

Entrenamiento previo visual autosupervisado

En los últimos años, el paradigma del modelado de imágenes enmascaradas (MIM) autosupervisado está ganando cada vez más el interés de los investigadores debido a su excelente capacidad para aprender representaciones visuales a partir de datos no etiquetados. Este paradigma sigue el proceso de "reconstrucción de máscaras" de recuperación de contenido a partir de imágenes de máscaras. Con el fin de aprender representaciones abstractas semánticas de alto nivel, una serie de trabajos de investigación intenta utilizar estrategias de máscaras a gran escala para reconstruir píxeles.

Sin embargo, este tipo de método tiene el problema de un "alisamiento excesivo". Por el contrario, el trabajo en la otra dirección introduce datos adicionales e incorpora directamente la semántica en la información supervisada de manera fuera de línea. A diferencia de los métodos anteriores, transferimos la vista al dominio de Fourier con vista global y proponemos un nuevo método de modelado de imágenes enmascaradas (MIM) llamado Gemini Cloze Autoencoder (Ge2-AE), que se utiliza para resolver tareas de preentrenamiento de la visión.

Específicamente, equipamos el modelo con un par de decodificadores paralelos, que son responsables de reconstruir el contenido de la imagen a partir de espacios de píxeles y frecuencias, respectivamente, con restricciones mutuas. Con este método, el codificador preentrenado puede aprender representaciones visuales más sólidas, y una serie de resultados experimentales en tareas de reconocimiento posteriores confirman la efectividad de este método.

También realizamos experimentos cuantitativos y cualitativos para estudiar el modo de aprendizaje de nuestro método. En la industria, este es el primer trabajo de MIM para resolver tareas de preentrenamiento visual desde la perspectiva del dominio de la frecuencia.

05

Regeneración de localización: Conexiones de lenguaje visual basadas en cuadros delimitadores

Escena Texto Visual Pregunta Método de respuesta

Ubique y luego genere: Bridging Vision 

e idioma con cuadro delimitador 

para escena-texto VQA

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad de Ciencia y Tecnología de China

En este documento, proponemos un novedoso marco multimodal de respuesta a preguntas visuales de texto de escena (STVQA), que puede leer texto de escena en imágenes para responder preguntas. Además del texto o los objetos visuales que pueden existir de forma independiente, el texto de escena, al ser un objeto visual en una imagen, conecta de forma natural el texto y las formas visuales al transmitir la semántica del lenguaje.

A diferencia del modelo STVQA tradicional, que considera la semántica lingüística y la semántica visual en el texto de la escena como dos características independientes, este artículo propone el paradigma "Localizar-Después-Generar" (LTG), que unifica explícitamente estas dos semánticas y utiliza la espacialidad. los cuadros delimitadores actúan como puentes que los conectan.

Específicamente, LTG primero utiliza un módulo de localización de respuestas (ALM) compuesto por una red de propuesta de área y una red de refinamiento de idioma para localizar regiones en imágenes que pueden contener palabras de respuesta, las cuales se transforman a través de un mapeo uno a uno por texto de escena. cuadros delimitadores. Luego, dadas las palabras de respuesta seleccionadas por ALM, LTG genera una secuencia de respuesta legible utilizando un módulo de generación de respuesta (AGM) basado en un modelo de lenguaje previamente entrenado. La ventaja de utilizar una alineación explícita de la visión y la semántica del lenguaje es que, incluso sin ninguna tarea de preentrenamiento basada en el texto de la escena, LTG puede mejorar la precisión absoluta en un 6,06 % y un 6,92 % en el conjunto de datos TextVQA y el conjunto de datos ST-VQA, respectivamente, en comparación Con En comparación con los métodos de línea de base no entrenados previamente, demostramos además que LTG unifica efectivamente las modalidades visuales y textuales a través de conexiones de cuadro delimitador espacial, que se ha estudiado ligeramente en métodos anteriores.

06

Aprendizaje de prototipos para gráficos de red robustos guiados por pocas muestras reales

FoPro: aprendizaje prototípico robusto supervisado por web guiado por pocas tomas

Recientemente, la investigación de aprendizaje supervisado (WSL) basado en Internet (imagen) tiene como objetivo explotar la gran cantidad de datos accesibles desde Internet. La mayoría de los métodos existentes se centran en aprender modelos resistentes al ruido a partir de imágenes de Internet, a menudo ignorando la degradación del rendimiento causada por la diferencia entre el dominio de imagen de Internet y el dominio comercial del mundo real. Solo al abordar las brechas de rendimiento anteriores podemos explotar completamente el valor práctico de los conjuntos de datos de fuente abierta en Internet.

Con este fin, proponemos un método llamado FoPro que utiliza una pequeña cantidad de muestras del mundo real para guiar el aprendizaje de representaciones prototipo de imágenes en la web. Solo necesita una pequeña cantidad de muestras etiquetadas en escenarios comerciales reales y puede mejorar significativamente el rendimiento del modelo en dominios comerciales reales.

Específicamente, este método utiliza una pequeña cantidad de datos de la escena real para inicializar la representación de características de cada centro de categoría como un prototipo "realista". Luego, la distancia intraclase entre las instancias de imagen de red y los prototipos reales se reduce mediante el aprendizaje contrastivo. Finalmente, el método utiliza el aprendizaje de métricas para medir la distancia entre las imágenes de la red y los prototipos de cada categoría. Los prototipos de categoría son revisados ​​continuamente por imágenes de red vecinas de alta calidad en el espacio de representación y participan en la eliminación de muestras fuera de distribución (OOD) con una gran distancia.

En el experimento, FoPro utilizó algunas muestras del mundo real para guiar el entrenamiento y el aprendizaje del conjunto de datos de la red y lo evaluó en el conjunto de datos del mundo real. El método logra un rendimiento de vanguardia en tres conjuntos de datos detallados y dos conjuntos de datos a gran escala. En comparación con los métodos WSL existentes, bajo el mismo entorno experimental de pocas muestras reales, FoPro muestra un excelente rendimiento de generalización en escenas reales.

07

Una visión general gruesa-fina

Solución de aceleración de transformadores

CF-ViT: un general grueso a fino 

Método para transformador de visión

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad de Xiamen

La operación central de Vision Transformers (ViTs) es la autoatención, y la complejidad computacional de la autoatención es proporcional al cuadrado de la cantidad de tokens de entrada. Por lo tanto, la forma más directa de comprimir la cantidad de cálculo de ViT es reducir el número de fichas durante el razonamiento, es decir, para reducir el número de parches para la división de imágenes.

En este documento, el número de tokens en el proceso de razonamiento se reduce a través del razonamiento adaptativo de dos etapas: la primera etapa divide la imagen en parches de grano grueso (de gran tamaño), el propósito es usar menos cálculo para identificar "simple" muestras; la segunda etapa divide la primera etapa en parches de grano grueso con alto contenido de información media que se dividen en parches de grano fino (pequeño tamaño), con el propósito de identificar muestras "difíciles" con menos cómputo.

Este documento también diseña la atención global para identificar parches de grano grueso con alto contenido de información y un mecanismo de multiplexación de características para aumentar la capacidad del modelo de razonamiento en dos etapas. Sin afectar la precisión de Top-1, este método reduce los FLOP de LV-ViT-S en un 53 % en ImageNet-1k, y la velocidad de inferencia medida en GPU también se acelera 2 veces.

08

destilado a través del conocimiento del lenguaje visual

Detección de interacción humano-objeto de extremo a extremo

Detección de HOI Zero-Shot de extremo a extremo a través de la destilación del conocimiento de la visión y el lenguaje

La mayoría de los métodos existentes de detección de interacciones entre humanos y objetos se basan en gran medida en anotaciones completas con categorías de interacción entre humanos y objetos predefinidas, que tienen una diversidad limitada y son costosas de escalar aún más. Nuestro objetivo es avanzar en la detección de interacción humano-objeto de disparo cero para detectar interacciones humano-objeto tanto visibles como invisibles. El desafío fundamental es descubrir posibles pares humano-cosa e identificar nuevas categorías de interacciones humano-cosa. Para superar los desafíos anteriores, proponemos un nuevo marco de detección de interacción humano-objeto de punto a punto de punto cero basado en la extracción de conocimiento visual-lingüístico.

Primero diseñamos un módulo de puntuación interactivo que se combina con un algoritmo de emparejamiento bipartito de dos etapas para permitir la discriminación de interacción de pares persona-objeto de una manera agnóstica a la acción. Luego, transferimos las distribuciones de probabilidad de acción del profesor de lenguaje visual previamente capacitado junto con las anotaciones de verdad en el terreno vistas al modelo de detección de interacción humano-objeto para la clasificación de interacción humano-objeto de disparo cero. Extensos experimentos en el conjunto de datos HICO Det demuestran que nuestro modelo descubre posibles pares de interacción y es capaz de identificar interacciones desconocidas entre humanos y objetos. Finalmente, nuestro método supera a los métodos de última generación anteriores en varias configuraciones de disparo cero. Además, nuestro método es generalizable a datos de detección de objetos a gran escala para ampliar aún más el conjunto de acciones.

09

Aprendizaje multietiqueta de diccionarios abiertos basado en transferencia de conocimiento multimodal

Etiqueta múltiple de vocabulario abierto 

Clasificación vía Multimodal

 Transferencia de conocimiento

En aplicaciones prácticas, los modelos de clasificación inevitablemente encontrarán una gran cantidad de etiquetas que no aparecen en el conjunto de entrenamiento. Para reconocer estas etiquetas, los métodos tradicionales de aprendizaje de disparo cero de múltiples etiquetas implementan la transferencia de conocimiento desde etiquetas visibles del conjunto de entrenamiento a etiquetas invisibles del conjunto de entrenamiento mediante la introducción de modelos de lenguaje como GloVe. Aunque el modelo de lenguaje unimodal modela bien la consistencia semántica entre etiquetas, ignora la información clave de consistencia visual en la clasificación de imágenes.

Recientemente, el modelo de clasificación de vocabulario abierto basado en el modelo de preentrenamiento gráfico-texto ha logrado resultados impresionantes en el aprendizaje de disparo cero de una sola etiqueta, pero aún se debe explorar con urgencia cómo transferir esta capacidad a escenarios de etiquetas múltiples.

En este artículo, el autor propone un marco basado en la transferencia de conocimiento multimodal (MKT) para realizar una clasificación de diccionario abierto de etiquetas múltiples. Específicamente, el autor realiza la predicción de etiquetas basada en la poderosa capacidad de coincidencia de imagen y texto del modelo de preentrenamiento de imagen y texto. Con el fin de optimizar el mapeo de etiquetas y mejorar la consistencia del mapeo de etiquetas de imagen, el autor presenta el aprendizaje rápido (Ajuste rápido) y la destilación de conocimiento (Destilación de conocimiento).

Al mismo tiempo, el autor propone un módulo de flujo dual simple pero efectivo para capturar simultáneamente características locales y globales, mejorando la capacidad de reconocimiento de etiquetas múltiples del modelo. Los resultados experimentales en dos conjuntos de datos públicos, NUS-WIDE y OpenImage, muestran que este método implementa efectivamente el aprendizaje de conjunto abierto de múltiples etiquetas.

10

Basado en la fusión de rama jerárquica adaptativa

Resumen de algoritmos de destilación de conocimiento en línea

Jerarquía Adaptativa-Fusión de Ramas para 

Destilación de conocimiento en línea

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y East China Normal University

La destilación de conocimientos en línea no necesita utilizar modelos de maestros previamente capacitados para la destilación de conocimientos, lo que mejora en gran medida la flexibilidad de la destilación de conocimientos. Los métodos existentes se centran principalmente en mejorar la precisión de la predicción después de conjuntos de múltiples ramas de estudiantes, a menudo ignorando el problema de homogeneización que hace que el modelo de estudiante se sobreajuste rápidamente y perjudique el rendimiento. El problema surge del uso de la misma arquitectura de sucursales y una estrategia de integración de sucursales deficiente. Para paliar este problema, en este artículo proponemos un nuevo Marco de Fusión de Ramas Jerárquicas Adaptativas para la Destilación de Conocimiento en Línea, abreviado como AHBF-OKD.

El marco diseña principalmente una estructura de rama jerárquica y un módulo de fusión de rama jerárquica adaptable para mejorar la diversidad de modelos, de modo que el conocimiento de diferentes ramas pueda complementarse entre sí. En particular, para transferir eficientemente el conocimiento de la rama más compleja a la rama de destino más simple, este documento propone un módulo de fusión de rama jerárquica adaptativo para crear de forma recursiva módulos docentes auxiliares interjerárquicos. Durante la capacitación, el conocimiento dentro del módulo de maestros auxiliares del nivel superior se destila efectivamente al módulo de maestros auxiliares y la rama estudiantil en la jerarquía actual. Por lo tanto, los coeficientes de importancia de las diferentes ramas se asignan de forma adaptativa para reducir la homogeneidad de las ramas.

Extensos experimentos verifican la efectividad de AHBF-OKD en diferentes conjuntos de datos, incluidos CIFAR-10/100 e ImageNet 2012. Por ejemplo, ResNet18 destilado logra una tasa de error Top-1 del 29,28 % en ImageNet 2012.

11

Método de estimación de poses de varias personas basado en la consistencia entre imágenes

Consistencia contrastiva entre imágenes para la estimación de la pose de varias personas

En los últimos años, se ha logrado un progreso impresionante en la estimación de poses de varias personas (MPPE). Sin embargo, es difícil para el modelo aprender representaciones de puntos clave coherentes debido a la oclusión o a las grandes diferencias de apariencia entre los cuerpos humanos. En este documento, proponemos un método de consistencia de contraste entre imágenes para mejorar la consistencia de las características de puntos clave entre imágenes en la tarea MPPE.

Específicamente, consideramos las restricciones de consistencia dual, incluida la consistencia de contraste de punto clave único (SKCC) y la consistencia de contraste de punto clave por pares (PRCC). SKCC se utiliza para fortalecer la consistencia de los puntos clave de la misma categoría en la imagen, mejorando así la solidez de categorías específicas. Aunque SKCC permite que el modelo reduzca de manera efectiva los errores de localización debidos a cambios de apariencia, sigue siendo un desafío en poses extremas (p. ej., oclusiones) debido a la falta de guía de relaciones estructurales de puntos clave. Por lo tanto, proponemos PRCC para hacer cumplir la consistencia de las relaciones de puntos clave por pares entre imágenes. PRCC colaboró ​​con SKCC para mejorar aún más la capacidad del modelo para manejar poses extremas.

Extensos experimentos en tres conjuntos de datos (es decir, MS-COCO, MPII, CrowdPose) muestran que el ICON propuesto logra grandes mejoras con respecto a la línea de base.

12

Un modelo de detección de objetos de pocos disparos basado en la fusión de características variacionales

Detección de objetos de pocos disparos a través de 

Agregación de características variacionales

Dado que los detectores de objetos de pocos disparos generalmente se entrenan en clases base con más muestras y se ajustan en clases novedosas con menos muestras, sus modelos aprendidos generalmente están sesgados hacia las clases base y son sensibles a la varianza de las muestras de clases novedosas. Para abordar este problema, este documento propone dos algoritmos de agregación de funciones basados ​​en el marco de metaaprendizaje.

Específicamente, este documento primero propone un algoritmo CAA de agregación de funciones independiente de la categoría, que permite que el modelo aprenda representaciones de funciones independientes de la categoría mediante la agregación de diferentes categorías de funciones de consulta (Consulta) y soporte (Soporte), y reduce la clase básica Confusión con la novedad clases

Basado en CAA, este documento propone un algoritmo de agregación de características variacional, VFA, que logra una agregación de características más robusta mediante la codificación de muestras en distribuciones de categorías. En este documento, se utiliza un codificador automático variacional (VAE) para estimar la distribución de categorías y características variacionales de la muestra a partir de una distribución que es más robusta a la varianza de la muestra.

Además, separamos las tareas de clasificación y regresión para que la agregación de características se pueda realizar en la rama de clasificación sin comprometer la localización de objetos.

13

Redes de retroalimentación iterativa de alta resolución para la segmentación de objetos camuflados

Red de retroalimentación iterativa de alta resolución para la detección de objetos camuflados

Detectar objetos camuflados que se asimilan visualmente al fondo es un problema espinoso tanto para los algoritmos de detección de objetos como para los humanos. Porque ambos se confunden o engañan fácilmente por la perfecta similitud interna entre el objeto de primer plano y el entorno de fondo.

Para abordar este desafío, extraemos detalles de textura de alta resolución para evitar la degradación de los detalles que causaría efectos de desenfoque visual en los bordes y límites. Presentamos un marco de trabajo de red HitNet novedoso para mejorar las representaciones de baja resolución a través de características de alta resolución de forma iterativa, cuya esencia es una interacción de características basada en un bucle global entre resoluciones de múltiples escalas.

Además, para diseñar un mejor flujo de funciones de retroalimentación y evitar el colapso de funciones causado por rutas recursivas, proponemos una estrategia de retroalimentación iterativa para imponer más restricciones en cada conexión de retroalimentación.

Extensos experimentos en cuatro conjuntos de datos desafiantes demuestran que nuestro HitNet rompe el cuello de botella de rendimiento y logra mejoras significativas en comparación con 35 métodos de última generación. Además, para abordar el problema de escasez de datos en escenarios de camuflaje, proporcionamos una aplicación que convierte objetos destacados en objetos de camuflaje, generando así más muestras de entrenamiento de camuflaje de diferentes objetos destacados, y el código se hará público.

14

 SpatialFormer: basado en la semántica y

Un método de aprendizaje de pocas tomas para la atención consciente de los objetos

SpatialFormer: Atenciones semánticas y conscientes de los objetivos para el aprendizaje en pocos intentos

Los métodos recientes de aprendizaje de pocos disparos enfatizan la generación de características integradas fuertemente discriminatorias para calcular con precisión la similitud entre los conjuntos de soporte y consulta. Los métodos actuales de atención cruzada basados ​​en CNN generan características más discriminatorias al mejorar regiones de soporte y pares de imágenes de consulta mutuamente semánticamente similares. Sin embargo, adolece de dos problemas: la estructura de la CNN produce mapas de atención inexactos basados ​​en las características locales, y los fondos similares provocan interferencias.

Para aliviar estos problemas, diseñamos una nueva estructura SpatialFormer para generar regiones de atención más precisas basadas en características globales. La similitud intrínseca a nivel de instancia del modelado tradicional de Transformer conduce a una disminución en la precisión de la clasificación de muestras pequeñas, mientras que nuestro SpatialFormer explora la similitud a nivel semántico entre las entradas para mejorar el rendimiento.

Luego, proponemos dos módulos de atención, llamados SpatialFormer Semantic Attention (SFSA) y SpatialFormer Target Attention (SFTA), para mejorar las regiones del objeto objetivo y reducir las distracciones de fondo. Entre ellos, SFSA destaca regiones con la misma información semántica entre pares de características, mientras que SFTA encuentra posibles regiones de objetos en primer plano de características novedosas similares a las categorías base.

Extensos experimentos demuestran la eficacia de nuestro método y logramos un rendimiento superior en varios conjuntos de datos de referencia.

15

Detección de objetos escasamente etiquetados basada en el modelo de maestro corregido

Profesor Calibrado para 

Detección de objetos escasamente anotados

La detección de objetos totalmente supervisada necesita etiquetar todas las instancias de objetos en las imágenes de entrenamiento, pero esto requiere una gran cantidad de costos de mano de obra para el etiquetado y, a menudo, es inevitable que falten etiquetas en el etiquetado. Los objetos que faltan en las imágenes proporcionarán una supervisión engañosa y un entrenamiento del modelo de daños, por lo que estudiamos métodos de detección de objetos escasamente etiquetados para aliviar este problema mediante la generación de pseudoetiquetas para los objetos que faltan.

Los primeros métodos de detección de objetivos escasamente etiquetados a menudo se basaban en umbrales de puntuación preestablecidos para filtrar las casillas faltantes, pero en diferentes etapas de entrenamiento, diferentes categorías de objetivos y diferentes detectores de objetivos, los umbrales efectivos son diferentes. Por lo tanto, los métodos existentes con umbrales fijos aún tienen espacio para la optimización y requieren un ajuste tedioso de hiperparámetros para diferentes detectores.

Para abordar este obstáculo, proponemos un "modelo de maestro calibrado", en el que las estimaciones de confianza para las predicciones se calibran con puntaje para que coincidan con la precisión real del detector. Por lo tanto, diferentes detectores tendrán distribuciones de confianza de salida similares para diferentes etapas de entrenamiento, por lo que varios detectores pueden compartir el mismo umbral fijo y lograr un mejor rendimiento.

Además, proponemos un mecanismo FIoU simple pero efectivo para reducir la pérdida de peso de clasificación de objetos falsos negativos causada por anotaciones faltantes.

Extensos experimentos muestran que nuestro método logra un rendimiento de última generación en 12 configuraciones diferentes de detección de objetos escasamente anotadas.

dieciséis

Basado en un conjunto de datos generales a gran escala

Método de inversión GAN de alta resolución para imágenes degradadas

Inversión GAN de alta resolución 

para imágenes degradadas 

en grandes conjuntos de datos diversos

En las últimas décadas, los datos de imágenes grandes y diversos han mostrado una resolución y calidad cada vez mayores. Sin embargo, algunas de las imágenes que obtenemos pueden sufrir múltiples degradaciones, lo que afecta la percepción y la aplicación a las tareas posteriores. Necesitamos un método general para generar imágenes de alta calidad a partir de imágenes degradadas. En este documento, proponemos un nuevo marco para abordar los problemas antes mencionados aprovechando las poderosas capacidades generativas de StyleGAN-XL para la inversión.

Para aliviar los desafíos que enfrenta StyleGAN-XL en la inversión, proponemos la inversión regular de clúster (CRI): (1) divida el enorme y complejo espacio latente en múltiples subespacios mediante la agrupación y proporcione Encuentre un mejor punto de partida para la inicialización, por lo tanto reduciendo la dificultad de optimización. (2) Utilizando las características del espacio latente de la red GAN, se introduce un desplazamiento con un término de regularización en el proceso de inversión para restringir el vector latente dentro del espacio latente que puede generar imágenes de alta calidad.

Validamos nuestro esquema CRI en múltiples tareas de pintura (terminación, colorización y súper resolución) en imágenes naturales complejas, logrando resultados tanto cuantitativos como cualitativos. Además demostramos que CRI es robusto a diferentes datos y diferentes modelos GAN.

Hasta donde sabemos, este documento es el primer trabajo que emplea StyleGAN-XL para generar imágenes de alta calidad a partir de imágenes naturales degradadas.

Nota: Los datos anteriores son datos de laboratorio.

Supongo que te gusta

Origin blog.csdn.net/qq_41050642/article/details/128305126
Recomendado
Clasificación