Tencent Youtu Lab ~ 16 documentos

Este año, Tencent Youtu Lab seleccionó un total de 16 artículos. Las direcciones de investigación incluyen el diseño de estructuras de modelos ligeros, la comprensión de documentos, la trazabilidad de falsificaciones profundas, la generación de huellas palmares, la protección de la privacidad facial, la detección de anomalías no supervisadas, la armonización de imágenes y la difusión de muestras pequeñas. direcciones como la adaptación del dominio del modelo, el reconocimiento incremental y la generación de formas 3D.

La siguiente es una descripción general de los documentos seleccionados por Tencent Youtu Lab:

01 Repensando el diseño del módulo móvil en un modelo eficiente basado en el mecanismo de atención

Replanteamiento del bloque móvil para modelos eficientes basados ​​en la atención Este documento se centra en el desarrollo de modelos modernos, eficientes y ligeros para la predicción densa, al tiempo que se hacen concesiones entre la cantidad de parámetros, el cálculo y el rendimiento. El modelo ligero de CNN tiene un bloque residual invertido (IRB) como estructura básica, pero aún no se ha reconocido la investigación sobre el módulo básico correspondiente basado en la atención.

Este documento replantea los módulos IRB eficientes y los componentes efectivos en Transformer desde una perspectiva unificada, extiende el IRB basado en CNN a modelos basados ​​en la atención y abstrae un Meta Mobile Block (MMB) residual para el diseño de modelos ligeros. Siguiendo pautas de diseño simples pero efectivas, derivamos un bloque móvil residual invertido (iRMB) moderno y construimos un modelo eficiente (EMO) similar a ResNet para tareas posteriores usando solo iRMB. Los extensos experimentos en los puntos de referencia ImageNet-1K, COCO2017 y ADE20K demuestran la superioridad del método propuesto. Por ejemplo, EMO-1M/2M/5M logró el Top-1 de 71,5, 75,1 y 78,4 en ImageNet-1K, superando a los modelos contemporáneos basados ​​en CNN/Attention y logrando buenos resultados en términos de parámetros, eficiencia y precisión. apagado.

Dirección de descarga del papel:

https://arxiv.org/pdf/2301.01146.pdf

02 Un modelo de comprensión de documentos de extremo a extremo con atención de área selectiva

Atención donde importa: replanteamiento de la comprensión de documentos visuales con concentración de región selectiva ofimática, etc. Escenarios. A diferencia de las soluciones técnicas convencionales de varias etapas, SeRum convierte las tareas de comprensión de imágenes de documentos y reconocimiento de texto de imágenes en un proceso de decodificación local para el conjunto de tokens visuales de la región de interés, y propone un módulo de combinación de tokens consciente del contenido.

Este mecanismo permite que el modelo preste más atención a la región de interés generada por el decodificador de consultas, mejorando la precisión del reconocimiento del modelo y acelerando la velocidad de decodificación del modelo generativo. El artículo también diseña una serie de tareas de preentrenamiento específicas para mejorar la comprensión del modelo del contenido de la imagen y la conciencia del área. Los resultados experimentales muestran que SeRum logra un rendimiento de vanguardia en tareas de comprensión de documentos y logra resultados competitivos en tareas de reconocimiento de texto.

03 De grueso a fino: recuperación de imágenes en una sola etapa para el aprendizaje de representaciones discriminativas compactas

De grueso a fino: aprendizaje de la representación discriminativa compacta para la recuperación de imágenes en una sola etapa La recuperación de imágenes consiste en encontrar imágenes de la base de datos que sean visualmente similares a la imagen de consulta. El método de dos etapas basado en el paradigma de recuperación-clasificación ha logrado un rendimiento superior , pero requiere módulos locales y globales adicionales, lo cual es ineficiente en aplicaciones prácticas. Para equilibrar mejor la eficiencia y la precisión de la recuperación, los métodos existentes fusionan características globales y locales en una representación conjunta para realizar la recuperación de imágenes en una sola etapa. Sin embargo, estos métodos siguen siendo un desafío debido a las complejas influencias ambientales, como el fondo, la oclusión y el ángulo de visión.

En este trabajo, diseñamos un CFCD de marco grueso a fino para aprender características compactas para la recuperación de imágenes de una sola etapa de extremo a extremo, que solo requiere etiquetas de nivel de imagen. Este documento primero diseña una nueva función de pérdida adaptativa, que puede ajustar dinámicamente la escala y el ángulo de sus características dentro de cada muestra de minilote, y fortalecer la supervisión y la compacidad intraclase durante el proceso de capacitación aumentando gradualmente de pequeño a grande. Además, proponemos un mecanismo de aprendizaje contrastivo para optimizar la prominencia entre clases a escala global mediante la inyección de relaciones semánticas de grano fino en la representación global a través de una estrategia de muestreo negativa difícil y la selección de descriptores locales destacados. Los amplios resultados experimentales demuestran la eficacia de nuestro método, que logra un rendimiento de recuperación de imágenes de una sola etapa de última generación en puntos de referencia como Revisited Oxford y Revisited Oxford.

04 D3G: Exploración de antecedentes gaussianos para el posicionamiento de videoclips basado en anotaciones de un solo cuadro

D3G: Explorando Gaussian Prior para la puesta a tierra de oraciones temporales con GlanceAnnotation La tarea de posicionamiento de segmentos de video basada en texto (puesta a tierra de oraciones temporales, TSG) tiene como objetivo ubicar el segmento específico correspondiente del video sin recortar dada una consulta de lenguaje natural. Recientemente, los métodos supervisados ​​débilmente todavía tienen una gran brecha de rendimiento en comparación con los métodos totalmente supervisados, que requieren una anotación de marca de tiempo laboriosa. En este estudio, nuestro objetivo es reducir el costo de anotación de la tarea TSG y aún así mantener un rendimiento competitivo en comparación con los métodos totalmente supervisados. Para lograr este objetivo, investigamos la tarea TSG basada en anotaciones de un solo cuadro recientemente propuesta, que requiere solo la información de anotación de un solo cuadro correspondiente para cada consulta de texto.

Bajo esta configuración, proponemos un marco de localización de segmentos de video (D3G) basado en la anotación de un solo cuadro y el anterior gaussiano dinámico, que consiste principalmente en un módulo de aprendizaje contrastivo del grupo de alineación semántica (SA-GCL) y un módulo de ajuste previo gaussiano dinámico (DGA). )composición. Específicamente, el módulo SA-GCL muestrea segmentos de muestra positivos confiables de gráficos temporales 2D mediante la explotación conjunta de anteriores gaussianos y la consistencia semántica, lo que ayuda a alinear la representación de pares de segmentos de texto y video en el espacio de incrustación conjunta. Además, para aliviar el problema del sesgo de anotación causado por la anotación de un solo cuadro y modelar de manera efectiva consultas de texto complejas compuestas de múltiples eventos, también proponemos un módulo DGA, que es el principal responsable de ajustar dinámicamente la distribución anterior gaussiana para aproximarse a la real. segmento objetivo. Nuestros extensos experimentos verifican la efectividad del D3G propuesto en tres puntos de referencia desafiantes. D3G supera significativamente a los métodos de última generación poco supervisados ​​y cierra la brecha de rendimiento en comparación con los métodos totalmente supervisados.

05 Método de trazabilidad de falsificación profunda de escena abierta basado en el aprendizaje comparativo de pseudoetiquetas

Pseudoaprendizaje contrastivo para la atribución de falsificaciones profundas en el mundo abierto* Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad Jiaotong de Shanghái Con el rápido desarrollo de la tecnología de generación, el problema del rastreo de fuentes de ataques faciales falsificados ha atraído una atención generalizada. Muchos estudios existentes han logrado algún progreso en la tarea de trazabilidad de GAN, pero ignoran los tipos de ataque más amenazantes, como el reemplazo de rostros o el impulso de expresión. Además, hay una gran cantidad de datos de rostros falsos sin etiquetas de tipo de ataque en la escena abierta, y esta parte de los datos no se ha utilizado por completo. Para enfrentar estos desafíos, este documento construye un nuevo punto de referencia llamado "OpenWorld-DeepFake Attribution, OW-DFA", que cubre el reemplazo de rostros, la conducción de expresiones, la edición de atributos, el reemplazo de rostros, etc. 20 Una variedad de tecnologías de falsificación convencionales para evaluar el rendimiento de trazabilidad de diferentes tipos de rostros forjados en escenarios abiertos.

Al mismo tiempo, este artículo propone un algoritmo de Pseudoaprendizaje Contrastivo (CPL) para la tarea OW-DFA, que incluye las siguientes dos partes: 1) Introducción de un módulo de votación global-local para corregir el tamaño de la región falsificada generada por diferentes diferencia de tipos de ataque; 2) Diseñar una estrategia de pseudoetiquetado basada en probabilidades para mitigar el ruido causado por métodos de ataque similares al explotar datos no etiquetados. Además, este documento combina aún más el algoritmo CPL con las técnicas de preentrenamiento y aprendizaje iterativo actualmente ampliamente utilizadas para mejorar aún más el rendimiento de la trazabilidad. A través de una gran cantidad de experimentos, este documento demuestra la superioridad del método CPL propuesto en la prueba comparativa OW-DFA, promueve de manera efectiva la interpretabilidad y la seguridad de la tarea de trazabilidad de falsificación profunda y tiene un impacto positivo en el campo de la detección de falsificación profunda. .

06 Generación de huellas palmares realistas para el reconocimiento de huellas palmares

RPG-Palm: generación de pseudodatos realistas para el reconocimiento de huellas dactilares

*Este artículo fue completado conjuntamente por Tencent Youtu Lab, Tencent WeChat Pay No. 33 Lab y la Universidad Tecnológica de Hefei Palmprint, como una tecnología de identificación biométrica estable y respetuosa con la privacidad, ha mostrado recientemente un gran potencial en las aplicaciones de identificación. Sin embargo, la falta de conjuntos de datos públicos de huellas palmares a gran escala limita la investigación y el desarrollo adicionales de la tecnología de reconocimiento de huellas palmares. En este artículo, proponemos un modelo de generación de huellas palmares realista controlable por ID. En primer lugar, presentamos un módulo de modulación condicional para mejorar la diversidad intraclase; en segundo lugar, proponemos una pérdida consciente de la identidad para garantizar la consistencia de la identidad de las muestras generadas bajo un entrenamiento no apareado.

Al mismo tiempo, mejoramos aún más la estrategia de generación de líneas de palma de Bezier para garantizar la distinción entre identidades. Una gran cantidad de resultados experimentales muestran que el entrenamiento previo con datos de huellas dactilares generadas puede mejorar significativamente el rendimiento del modelo de reconocimiento. Por ejemplo, nuestro modelo logra tasas de aprobación un 5 % y un 14 % más altas que el BezierPalm @FAR=1e-6 de última generación en configuraciones de entrenamiento/prueba 1:1 y 1:3. Cuando se entrena con solo un 10 % de datos reales, nuestro método aún supera al modelo basado en ArcFace entrenado con un 100 % de datos reales, lo que demuestra que nuestro método es un paso hacia el reconocimiento de huellas palmares sin usar datos reales para el entrenamiento del modelo.

Dirección de descarga del papel:

https://github.com/RayshenSL/RPG-PALM

07 PartialFace: método de protección de privacidad de reconocimiento facial basado en componentes de frecuencia aleatorios

Reconocimiento facial que preserva la privacidad mediante componentes de frecuencia aleatoria

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad de Fudan.Este artículo analiza la ocultación de las características visuales de las imágenes faciales y la mejora de la capacidad para resistir los ataques de reconstrucción, y propone un método de reconocimiento facial PartialFace que puede brindar protección de la privacidad en el entrenamiento y la inferencia. etapas En este artículo, primero explotamos las diferencias de percepción entre humanos y modelos para diferentes componentes de dominio de frecuencia, y ocultamos la información visual de la imagen eliminando los componentes de baja frecuencia perceptibles a simple vista. En segundo lugar, este documento advierte la falla de protección de la privacidad de métodos similares, es decir, la precisión del modelo de reconocimiento se basa en componentes de alta frecuencia a gran escala, y la información redundante que transportan estos componentes puede exponer el modelo a ataques de reconstrucción.

Para hacer frente a este problema, este documento observa que la atención del modelo difiere en diferentes componentes del dominio de la frecuencia, y propone entrenar el modelo en una combinación de componentes seleccionados aleatoriamente, de modo que el modelo pueda establecer un mapeo de la información del dominio de la frecuencia local a información general de la cara. Por lo tanto, mientras mantiene la precisión del reconocimiento, este documento reduce la escala del componente de alta frecuencia requerida a 1/6 de métodos similares, lo que mejora el rendimiento de la protección de la privacidad. Verificado por extensos experimentos, el método propuesto puede proporcionar una resistencia a la reconstrucción significativamente mejor que los métodos actuales de última generación, al mismo tiempo que mantiene un rendimiento competitivo de la tarea.

08 Recordando la normalidad: Detección de anomalías no supervisada con destilación de conocimiento aumentada por mecanismo de memoria

Recordando la normalidad: destilación del conocimiento guiada por la memoria para la detección de anomalías no supervisadas

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad Jiaotong de Shanghái.Este artículo propone un nuevo método de detección de anomalías no supervisado llamado Destilación de conocimiento guiada por memoria (MemKD). El método tradicional de detección de anomalías basado en la destilación del conocimiento tendrá el problema de "olvidar la normalidad" en el proceso de aprendizaje, es decir, bajo la premisa de usar solo datos normales para el entrenamiento, el modelo de estudiante reconstruirá las características anormales y los detalles de textura contenidos. en el normal los datos son muy difíciles.

Para resolver este problema, MemKD presenta un nuevo mecanismo de memoria, el Módulo de recuperación de conocimiento normal (NRM), para fortalecer la normalidad de las características generadas por el modelo de estudiante al almacenar la información de los datos normales. Al mismo tiempo, MemKD también adopta una estrategia de aprendizaje de representación de normalidad para construir un conjunto de muestras normales, de modo que NRM pueda memorizar el conocimiento previo de datos no anormales y recuperarlos en consultas posteriores. Los resultados experimentales muestran que MemKD ha logrado buenos resultados en cinco conjuntos de datos, incluidos MVTec AD, VisA, MPDD, MVTec 3D-AD y Eyecandies.

09 Armonización de imágenes para el aprendizaje Núcleo de percepción global

Aprendizaje de kernel con reconocimiento global para la armonización de imágenes

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad de Zhejiang para resolver el problema de la discontinuidad visual en la imagen sintetizada ajustando de forma adaptativa el color de primer plano con el fondo como referencia. Los métodos existentes adoptan estrategias locales de transformación de color o coincidencia de regiones entre el primer plano y el fondo, ignoran la proximidad previa y distinguen el primer plano/fondo de forma independiente para la armonización. Por lo tanto, todavía muestra un rendimiento limitado en diversos objetos de primer plano y escenas complejas. Para abordar este problema, proponemos una novedosa red de kernel globalmente consciente (GKNet) para lograr la armonía de la región local que considera de manera integral la información de fondo de largo alcance.

Específicamente, GKNet incluye dos partes: Predicción del Kernel de Armonización y Modulación de Armonización. El primero incluye un extractor de referencias de larga distancia (LRE) para obtener un extractor de referencias de larga distancia (LRE) y un módulo de predicción del kernel de armonía multinivel (KPB) para fusionar información global y características locales; con el fin de lograr una mejor selección de referencias de fondo relevantes a larga distancia para la armonía local Para optimizar este objetivo, también proponemos un novedoso módulo de fusión de correlación selectiva (SCF). Este último realiza la armonización de la región de primer plano utilizando el núcleo de armonización predicho. Extensos experimentos demuestran la superioridad de nuestro método de armonización de imágenes sobre los métodos más avanzados, por ejemplo, logrando un PSNR de 39,53 dB, una mejora de +0,78 dB sobre el mejor método relevante y reduciendo fMSE/MSE en 11,5 en comparación con el método SoTA % y 6,7%.

Dirección de descarga del papel:

https://arxiv.org/pdf/2305.11676.pdf

10 Adaptación de dominios del modelo de difusión de muestras pequeñas basado en la fusión de contenido de segmentos y la consistencia de distribución dirigida

Modelo de difusión de fusión de contenido fásico con consistencia de distribución direccional para la adaptación del modelo de pocos disparos

*Este documento lo completaron conjuntamente Tencent Youtu Lab y la Universidad Jiaotong de Shanghái. Entrenar modelos generativos con muestras limitadas es una tarea desafiante. Los métodos existentes utilizan principalmente la adaptación de dominios de modelos de muestras pequeñas para entrenar redes. Sin embargo, en escenarios donde los datos son extremadamente escasos (menos de 10 muestras), los modelos generativos son propensos al sobreajuste y la degradación del contenido.

Para abordar estos problemas, proponemos un novedoso modelo de difusión de pocos disparos basado en la fusión de contenido de segmentación, y proponemos una pérdida de consistencia de distribución dirigida, de modo que el modelo de difusión aprenda información diferente del dominio objetivo en diferentes etapas de entrenamiento. Específicamente, diseñamos una estrategia de entrenamiento segmentada para ayudar al modelo a mantener el contenido del dominio de origen y aprender la información de estilo del dominio de destino cuando la cantidad de pasos que agregan ruido es grande a través de la fusión de contenido segmentado, y cuando la cantidad de pasos de adición de ruido es grande. agregar pasos es pequeño. Conozca la información detallada local del dominio de destino, a fin de mejorar la capacidad del modelo para controlar el contenido, el estilo y los detalles locales.

Además, presentamos una nueva pérdida de consistencia de distribución dirigida, que puede garantizar de manera eficiente y estable la consistencia de la distribución del dominio generado y la distribución del dominio de origen, evitando el sobreajuste del modelo. Finalmente, también proponemos una estrategia de guía de estructura de dominio cruzado para mejorar la consistencia estructural de la imagen generada con la imagen original durante la adaptación del dominio. A partir del análisis teórico, experimentos cualitativos y cuantitativos, demostramos efectivamente la superioridad del método propuesto sobre los métodos anteriores de adaptación del modelo de muestra pequeña.

11 Reconocimiento incremental basado en aprendizaje alterno de supervisión de instancia y categoría

La supervisión de instancia y categoría son estudiantes alternativos para el aprendizaje continuo

*Este artículo es completado conjuntamente por Tencent Youtu Lab y East China Normal University.El aprendizaje continuo CL (aprendizaje incremental) consiste en desarrollar continuamente habilidades de comportamiento complejas sobre la base de adquisiciones anteriores. Sin embargo, los algoritmos CL actuales tienden a causar el olvido a nivel de clase, ya que la información de la etiqueta a menudo se sobrescribe rápidamente con nuevos conocimientos. Esto motiva los intentos de minar la discriminación a nivel de instancia a través de técnicas recientes de aprendizaje autosupervisado (SSL). Sin embargo, trabajos anteriores señalaron que el objetivo de aprendizaje autosupervisado es esencialmente una compensación entre la invariancia a la distorsión y la preservación de la información de la muestra, lo que dificulta seriamente la mejora del rendimiento.Reformulamos SSL desde la perspectiva de la teoría de la información, desentrañando la distinción de clase de instancia y aborda esta compensación para facilitar representaciones compactas que son lo más invariables posible a la distorsión.

En base a esto, desarrollamos un nuevo paradigma de aprendizaje alternativo para disfrutar de las ventajas complementarias de la supervisión a nivel de instancia y nivel de categoría, lo que mejora la robustez al olvido y se adapta mejor a cada tarea. Para validar el método propuesto, llevamos a cabo extensos experimentos en cuatro puntos de referencia diferentes utilizando configuraciones de incremento de clase y de incremento de tarea, donde los saltos de rendimiento y los estudios de ablación exhaustivos demuestran la eficacia y la eficiencia de nuestra estrategia de modelado.

12 Varios modelos de generación de formas 3D basados ​​en modelos autorregresivos mejorados

Aprendizaje de la generación versátil de formas en 3D con modelos AR mejorados

*Este artículo fue completado conjuntamente por Tencent Youtu Lab, la Universidad de Tsinghua y la Universidad de Fudan. Mi modelo autorregresivo (AR) ha logrado logros notables en la generación de imágenes 2D al modelar la distribución conjunta en el espacio de la cuadrícula. Si bien este enfoque se ha extendido al dominio 3D para la generación robusta de formas, quedan dos limitaciones: cálculos costosos en cuadrículas volumétricas y ordenación autorregresiva ambigua en las dimensiones de la cuadrícula.

Para superar estas limitaciones, proponemos un modelo autorregresivo mejorado (ImAM) para la generación de formas 3D, que aplica el aprendizaje de representación discreta basado en vectores latentes en lugar de utilizar cuadrículas volumétricas. Nuestro método no solo reduce el costo computacional, sino que también conserva los detalles geométricos esenciales al aprender la distribución conjunta en un orden más manejable. Además, debido a la simplicidad de la arquitectura de nuestro modelo, podemos extenderlo naturalmente de la generación incondicional a la condicional concatenando varias entradas condicionales como nubes de puntos, categorías, imágenes y texto. Extensos experimentos demuestran que ImAM es capaz de sintetizar formas diversas y realistas en múltiples categorías y logra un rendimiento de vanguardia.

Dirección de descarga del papel:

https://arxiv.org/pdf/2303.14700.pdf

13 transformadores de asignación conscientes de clases para la localización de objetos con supervisión débil

Transformador de asignación con reconocimiento de categorías para la localización de objetos con supervisión débil

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad de Xiamen. La Localización de destino débilmente supervisada (WSOL) tiene como objetivo darse cuenta de que solo se proporciona una etiqueta de nivel de imagen dada para aprender un localizador de destino. Recientemente, la red neuronal de transformación (Transformer) basada en el mecanismo de autoatención y la estructura de perceptrón multicapa ha surgido en WSOL porque puede capturar dependencias de características a larga distancia. La mosca en el ungüento es que los métodos basados ​​en Transformer utilizan mapas de atención agnósticos de categoría para predecir cuadros delimitadores, lo que conduce fácilmente a una localización de objetos confusa y ruidosa.

Este documento propone un nuevo marco basado en Transformer: CATR (Category-Aware Transformer), que aprende una representación consciente de categoría de un objeto específico en un Transformador y genera un mapa de atención consciente de categoría correspondiente para la localización de objetos. Específicamente, este documento propone un módulo consciente de la categoría para guiar los mapas de características de autoatención para aprender el sesgo de categoría y proporcionar información de supervisión de categoría para guiarlo a aprender representaciones de características más efectivas. Además, este documento diseña un módulo de restricción de objetos para refinar las regiones de objetos de los mapas de atención conscientes de categorías de manera autosupervisada. Finalmente, se realizaron suficientes experimentos en dos conjuntos de datos públicos CUB-200-2011 e ILSVRC para verificar la efectividad del método en este documento.

14 SLAN: red auxiliar de autoubicación para la comprensión del lenguaje visual

SLAN: red asistida por autolocalización para la comprensión del lenguaje visual

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad de Nankai. Aprender la interacción detallada entre la visión y el lenguaje ayuda al modelo a comprender las tareas del lenguaje visual con mayor precisión. Sin embargo, la extracción de regiones clave de la imagen del texto para la alineación semántica sigue siendo un desafío. La mayoría de los trabajos existentes utilizan detectores congelados para obtener regiones objetivo en regiones redundantes, y la mayoría de las regiones objetivo extraídas son irrelevantes para la información semántica del texto, o no pueden extenderse más debido a que dependen en gran medida de datos etiquetados para pre-entrenar detectores.

Para abordar estos problemas, proponemos una red auxiliar de autolocalización (SLAN) para tareas de comprensión del lenguaje visual sin ningún dato objetivo adicional. SLAN consta de filtros de región y adaptadores de región para ubicar regiones de interés en función de diferentes textos. Al agregar información visual y lingüística, los filtros de región seleccionan regiones clave y los adaptadores de región actualizan sus coordenadas con guía de texto. Con una alineación de texto de región detallada, SLAN se puede generalizar fácilmente a muchas tareas posteriores. Logra resultados bastante competitivos en cinco tareas de comprensión del lenguaje visual (p. ej., 85,7 % y 69,2 % en la recuperación de imagen a texto y de texto a imagen de COCO, respectivamente, superando los métodos anteriores de SOTA). SLAM también demuestra una fuerte capacidad de transferencia precisa y de disparo cero a dos tareas de localización de objetos.

15 codificadores automáticos enmascarados son estudiantes incrementales de clase eficientes

Los codificadores automáticos enmascarados son estudiantes incrementales de clase eficientes

*Este artículo fue completado conjuntamente por Tencent Youtu Lab y la Universidad de Nankai. Class Incremental Learning (CIL) tiene como objetivo aprender secuencialmente nuevas categorías y evitar el olvido catastrófico de conocimientos previos. En este estudio, proponemos utilizar codificadores automáticos enmascarados (MAE) como aprendices eficientes para CIL. Los MAE se desarrollaron originalmente para aprender representaciones útiles a través del aprendizaje no supervisado de reconstrucción, y se pueden integrar fácilmente con pérdidas supervisadas para la clasificación. Además, MAE puede reconstruir de manera confiable la imagen de entrada original a partir de parches seleccionados al azar, que explotamos para almacenar de manera más eficiente muestras de tareas anteriores para uso de CIL. También proponemos un marco MAE bilateral para aprender de la fusión a nivel de imagen y nivel de incrustación, lo que da como resultado imágenes mejor reconstruidas y representaciones más estables. Nuestros experimentos confirman que nuestro método logra un rendimiento superior en comparación con el estado del arte en CIFAR-100, ImageNet-Subset e ImageNet-Full. ¿Qué software  es?  http://143ai.com

16 SMMix: mezcla de imágenes autónoma con transformador de visión

SMMix: mezcla de imágenes automotivada para transformadores de visión

*Este documento lo completaron conjuntamente Tencent Youtu Lab y la Universidad de Nankai.CutMix es una importante estrategia de mejora que determina el rendimiento y la capacidad de generalización de Visual Transformer (ViT). Sin embargo, la inconsistencia entre la imagen híbrida y la etiqueta correspondiente perjudica su efecto. Las variantes de CutMix existentes abordan este problema al generar imágenes mixtas más consistentes o etiquetas mixtas más precisas, pero inevitablemente introducen una gran sobrecarga de capacitación o requieren información adicional, lo que socava la facilidad de uso. Con este fin, proponemos un método de mezcla de imágenes automotivado novedoso y eficiente (SMMix), que motiva el aumento de imágenes y etiquetas entrenando un modelo en sí mismo. Específicamente, proponemos un método de combinación de regiones de atención máximo-mínimo que enriquece los objetos centrados en la atención en imágenes combinadas. A continuación, presentamos una técnica de asignación de etiquetas de granularidad fina que entrena conjuntamente las etiquetas de salida de la mezcla de imágenes con supervisión de granularidad fina. Además, diseñamos una nueva restricción de consistencia de características para alinear las características de las imágenes mixtas y no mixtas. Debido al diseño sutil del paradigma de automotivación, nuestro SMMix se destaca por tener una sobrecarga de entrenamiento más pequeña y un mejor rendimiento que otras variantes de CutMix. En particular, SMMix mejora la precisión de DeiT-T/S/B, CaiT-XXS-24/36 y PVT-T/S/M/L en más de un 1 % en ImageNet-1k. La capacidad de generalización de nuestro método también se demuestra en tareas posteriores y conjuntos de datos fuera de distribución.

Enlace de papel:

https://arxiv.org/abs/2212.12977

Supongo que te gusta

Origin blog.csdn.net/qq_29788741/article/details/132032242
Recomendado
Clasificación