[Red neuronal] 2021-IJCAI-Aprender a partir de conceptos: hacia la memoria pura del aprendizaje en pocas oportunidades

Aprender de los conceptos: hacia la memoria pura con un aprendizaje en pocas oportunidades

dirección en papel

Resumen

 Los seres humanos tienen una gran capacidad de generalización y pueden reconocer una nueva categoría viendo sólo unos pocos ejemplos. Esto se debe a que los humanos tenemos la capacidad de aprender de conceptos que ya existen en nuestra mente. Sin embargo, muchos métodos de pocas posibilidades existentes no logran abordar el problema fundamental de cómo aprovechar el conocimiento aprendido en el pasado para mejorar las predicciones para nuevas tareas. En este artículo, proponemos un modelo novedoso que simula el proceso de reconocimiento humano 净化记忆机制. Este nuevo esquema de actualización de memoria permite al modelo purificar información de etiquetas semánticas y aprender gradualmente conceptos consistentes, estables y expresivos a medida que se entrena episodio tras episodio. Sobre esta base, 图增强模块(Graph Augmentation Module,GAM)se introduce una red neuronal gráfica para agregar estos conceptos y conocimientos aprendidos de nuevas tareas para hacer predicciones más precisas. En general, nuestro enfoque es independiente del modelo, computacionalmente eficiente y tiene un costo de memoria insignificante. Amplios experimentos en varios puntos de referencia muestran que el método propuesto puede superar consistentemente una gran cantidad de métodos de aprendizaje de pequeña escala de última generación.

1. Introducción

 El éxito del aprendizaje profundo proviene de grandes cantidades de datos etiquetados [Noh et al, 2017; Bertinetto et al, 2016; Long et al, 2015], y los humanos tienen buenas capacidades de generalización al ver solo unos pocos ejemplos. La brecha entre estos dos hechos ha atraído gran atención a la investigación del aprendizaje en pocas oportunidades [Vinyals et al, 2016; Finn et al, 2017; Sung et al, 2018]. A diferencia de los escenarios tradicionales de aprendizaje profundo, el aprendizaje de pocas tomas no clasifica muestras no vistas, sino que adapta rápidamente el metaconocimiento a nuevas tareas, teniendo en cuenta solo pocos datos etiquetados y conocimientos adquiridos a partir de experiencias previas .

 Recientemente, se han abordado ventajas significativas [Vinyals et al, 2016; Finn et al, 2017; Snell et al, 2017; Sung et al, 2018] utilizando la idea de metaaprendizaje combinado con entrenamiento situacional [Vinyals et al, 2018]. , 2016] pregunta. La intuición es utilizar estrategias de muestreo episódico, una tendencia prometedora para transferir conocimiento de categorías conocidas (es decir, categorías conocidas con suficientes ejemplos de entrenamiento) a categorías nuevas (es decir, categorías nuevas con una pequeña cantidad de ejemplos), simulando el proceso de aprendizaje humano. En este marco, se utilizan métodos basados ​​en métricas [Vinyals et al, 2016; Snell et al, 2017] y métodos basados ​​en gráficos [García y Bruna, 2017; Liu et al, 2018; Kim et al, 2019; Yang et al, 2020 ] son ​​dos métodos representativos que explotan principalmente el metaconocimiento transferible. Debido a la capacidad de aprender eficazmente a partir de datos de gráficos, los métodos basados ​​en gráficos a menudo superan a los métodos basados ​​en métricas, que extienden las relaciones de soporte de consultas por pares a las estructuras de gráficos.

 Aunque los métodos basados ​​en gráficos son efectivos [Kim et al, 2019; Yang et al, 2020], la mayoría de ellos ignoran una cuestión clave, que es cómo el conocimiento aprendido en el pasado cambia cuando los escenarios se entrenan uno tras otro, lo que resulta útil para nuevas tareas. Como intuición, para tareas invisibles, los humanos no utilizan todo el conocimiento, pero utilizan algunos conceptos relacionados ricos en información para mejorar la capacidad de predicción para nuevas tareas . Por ejemplo, si una persona ya comprende los conceptos de caballo, tigre y panda, entonces es fácil reconocer la cebra siempre que el contorno de la cebra sea como un caballo, las rayas sean como un tigre y el blanco y el negro. El color es como un panda. Inspirándonos en esta simple intuición, proponemos la hipótesis de que los modelos de aprendizaje de pocas oportunidades deberían establecer explícitamente relaciones entre escenarios y explotar plenamente el conocimiento de aprendizaje existente .

 Sin embargo, plantea dos cuestiones fundamentales que obstaculizan los métodos basados ​​en gráficos existentes : 1) cómo aprender conceptos estables y consistentes cuando los escenarios llegan rápidamente; 2) cómo los conceptos aprendidos ayudan aún más a la predicción cuando se adaptan a nuevas tareas. En este artículo, proponemos un marco de memoria desinfectado para abordar estos dos problemas. Nuestra idea básica es muy simple: simular el proceso de reconocimiento humano. Para mantener conceptos estables y consistentes, mantenemos un banco de memoria durante el entrenamiento episódico que aprende la mejor representación prototipo para cada categoría desde la perspectiva del principio del cuello de botella de la información [Tishby y Zaslavsky, 2015]. Al purificar gradualmente la información de las etiquetas semánticas, el conocimiento almacenado debería ser universalmente expresivo, consistente y estable.

Para aprovechar al máximo la memoria purificada, proponemos el Módulo de aumento de gráficos (GAM) como una forma de extraer metaconocimiento y establecer correlaciones entre diferentes escenarios . Al procesar una nueva tarea, GAM primero recupera el concepto de k-vecinos más cercanos tomando como consulta el centro de clase de la tarea actual. Las muestras de entrenamiento de situaciones y conceptos recuperadas luego se envían a una red neuronal gráfica (GNN) con un esquema de ponderación adaptativo. Por lo tanto, se agregan los conceptos aprendidos en el pasado y el conocimiento aprendido de nuevas tareas, lo que permite que nuestro modelo haga predicciones precisas. En particular, nuestro método es un enfoque independiente del modelo que se puede integrar de manera flexible en cualquier método GNN avanzado con un costo computacional insignificante.

 Nuestras principales contribuciones son triples: (1) Proponemos un nuevo mecanismo de purificación de la memoria que es eficiente, consistente y poderoso en expresión; (2) el GAM propuesto es capaz de extraer metaconocimiento y capturar las diferencias entre diferentes eventos. Relevancia; ( 3) Nuestro enfoque produce resultados de muestras pequeñas de última generación, y nuestros interesantes hallazgos resaltan la necesidad de repensar la forma en que utilizamos el metaconocimiento.

2. Método

 Este artículo tiene como objetivo resolver el problema de la clasificación de pocos disparos. La definición del problema es fundamentalmente diferente de la clasificación tradicional en que nuestro objetivo no es clasificar muestras invisibles sino adaptar rápidamente el metaconocimiento a nuevas tareas . Específicamente, proporciona una clase con la base C^{base}CBase un conjunto de datos etiquetados de suficientes muestras de entrenamiento, con el objetivo de utilizar una novela C^{novel} de clase C de un conjunto declases novedosas .Cn o v e l Datos muy limitados recopilados para aprender conceptos dondeC base ∩ C novel = ∅ C^{base}\cap C^{novel}=\emptysetCba seCnovela _ _ _ _= . Una forma eficaz de resolver el problema de los pocos disparos es utilizar una estrategia de muestreo situacional. En este marco, las muestras en metaentrenamiento y metapruebas no son muestras sino escenarios{ T } \left\{\mathcal{T}\right\}{ T } , cada escenario contieneNNN clases (caminos) y cada claseKKTiros K. En particular, paraN − vía K − tiro N-vía\ K-tironortecamino k _ _ s h o t任务,支持集S = { ( xi , yi ) } i = 1 N × KS=\left\{\left(x_i,\ y_i\right)\right\}_{i=1}^{ N\veces K}S={ ( xyo, yyo) }yo = 1N × K和查询集Q = { ( xi , yi ) } i = N × K + 1 N × K + TQ=\left\{\left(x_i,\ y_i\right)\right\}_{i=N\times K+1}^{N\veces K+T}q={ ( xyo, yyo) }yo = norte × k + 1norte × k + tmuestras. Aquí, xi x_iXyoyi ∈ { C 1 , . . . , CN } y_i\in\left\{C_1,\ ...,\ C_N\right\}yyo{ C1, ... , Cnorte} Este es el númeroiiingreso datos, desdeC base C^{base}Cbase._ _ _ En las metapruebas, las tareas de prueba también sonC novel C^{novel}CExtraiga tramas del mismo tamaño de la novela . El objetivo es centralizar la consulta alTTT muestras sin etiquetar se clasifican correctamente comoNNN categorías.

2.1 Descripción general del marco

 El marco del método propuesto se muestra en la Figura 1. Consta principalmente de tres partes, a saber, el codificador para la extracción de características discriminativas, el módulo de memoria para expresar el almacenamiento de metaconocimiento y el módulo de expansión de gráficos para un razonamiento integral. En términos generales, nuestro método se puede resumir en 3 etapas (es decir, preentrenamiento, metaentrenamiento, metaprueba).

Figura 1

Figura 1: Diagrama de flujo del método propuesto. Tomemos como ejemplo la configuración de 2 disparos y 2 vías.

La primera etapa de preformación . Seguimos una línea de base simple [Chen et al, 2020]: en el conjunto de metaentrenamiento C base C^{base}CSe aprende una representación supervisada en base y luego se usa un clasificador lineal encima de esta representación. Se ha demostrado que esta etapa de preentrenamiento es beneficiosa para tareas pequeñas posteriores [Tian et al, 2020], y luego el extractor de características entrenado (por ejemplo, ResNet-12 [He et al, 2016]) y el clasificador se utilizan como codificadores respectivamente e inicialización del banco de memoria.

La segunda etapa del metaentrenamiento . Primero extraemos características de muestras de soporte y muestras de consulta como incorporaciones relacionadas con tareas V t V^tVt . Luego, para facilitar una rápida adaptación, nuestro enfoque posee un banco de memoria para almacenar la representación expresiva del conjunto de soporte. El banco de memoria se optimiza utilizando un nuevo esquema de actualización para purificar gradualmente la información discriminativa (presentado en la Sección 2.2). Además, la memoria purificada se combina con un módulo de aumento de gráficos para una predicción sólida (presentado en la Sección 2.3). En este módulo, extraemos prototipos relevantesV m V^mVm , llamado metaconocimiento en este artículo, para propagarV t V^tVt yVm V^mVsimilitud entre m . Por lo tanto, nuestro modelo puede generalizarse fácilmente a nuevas tareas con un costo de memoria insignificante.

Metaprueba de fase 3 . El proceso de Meta-Test es similar al de Meta-Train y también utiliza una estrategia de muestreo episódico. Pero a diferencia de Phase-II, el banco de memoria y otros módulos no se actualizan durante todo el proceso. En otras palabras, el interruptor se cerrará, como se muestra en la Figura 1.

2.2 Actualización de memoria fina

 El metaconocimiento juega un papel importante en el aprendizaje de nuevos conceptos a partir de muestras desconocidas, y los avances recientes de FSL [Ramalho y Garnelo, 2019] a menudo utilizan mecanismos de memoria para almacenar este metaconocimiento. En su configuración típica, la memoria intenta retener tanta información como sea posible (por ejemplo, almacenar todas las funciones). Sin embargo, creemos que esta estrategia es a la vez ineficaz e ineficiente. En el contexto de FSL, el muestreo episódico permite que los extractores de características aprendan rápidamente nuevos conceptos con pocas muestras, lo que genera el problema de actualizar características en la memoria cuando el extractor de características se encuentra en un contexto de tarea muy diferente . Desde esta perspectiva, las representaciones aprendidas en diferentes tareas requieren de un proceso de depuración para convertirse en un concepto estable.

 Para aliviar los problemas anteriores, proponemos optimizar la memoria aprendiendo el mejor prototipo para cada categoría . Específicamente, considere N − way K − shot N-way K-shot en FSLnortew a yks h o t tarea, usamosfsupl ∈ R [ N × K , d ] f_{sup}^l\in\mathbb{R}^{\left[N\times K,\ d\right]}Fsup _ _yoR[ N × K , d ]  para representar elllésimol Representación de características del conjunto de soporte concentrado,M ∈ R [ C , d ] \mathbb{M}\in\mathbb{R}^{[C,d]}METROR[ C , d ] representa el banco de memoria, dondeCCC yddd representa el número total de categorías y la dimensión del prototipo respectivamente.

 Para purificar gradualmente la información semántica de las etiquetas, primero realizamos fsupl f_{sup}^lFsup _ _yoRealice un promedio de clases para obtener el centroide fcenl ∈ R [ c , d ] f_{cen}^l\in\mathbb{R}^{[c,d]}Fce sustantivo, masculino—yoR[ c , d ] , y luego compara cada centroide con el prototipofpl ∈ R [ c , d ] f_p^l\in\mathbb{R}^{[c,d]}FpagyoR[ c , d ] (almacenados en la memoria) pertenecen a la misma categoría. Conectaremosfcatl ∈ R [ c , 2 × d ] f_{cat}^l\in\mathbb{R}^{[c,2×d]}Fgato _ _yoR[ c , 2 × d ] se reenvía a una capa completamente conectada para reducir la dimensionalidad y la salida se utiliza para mejorar la memoria. Aquí proponemos utilizar el principio del cuello de botella de la información para refinar este concepto. Las siguientes restricciones se utilizan para garantizar que IB funcione correctamente, es decir, retenga información de etiquetas semánticas y evite problemas irrelevantes para la tarea.

oficial 1

 其中Yo ( . ; . ) Yo\left(.;\ .\right)I( . ; . ) representa información mutua,YYY representa la etiqueta,β \betaβ son coeficientes lagrangianos respectivamente.

 Específicamente, la fórmula (1) tiene como objetivo conocer el objetivo YYLa cantidad máxima de información de Y afecta simultáneamentea fcatl f_{cat}^lFgato _ _yoPrototipo fpl f_p^l con máxima compresiónFpagyo. Sin embargo, la fórmula (1) requiere estimar información mutua de alta dimensión, lo cual es complicado en un espacio de tan alta dimensión. Afortunadamente, dado que nuestro objetivo es purificar este concepto, demostramos que la pérdida por destilación del autoconocimiento puede ser estrictamente consistente con la ecuación (1). La derivación matemática se muestra en el material complementario.

En la práctica, se imponen las siguientes restricciones para purificar la información discriminativa y refinar aún más la memoria :

oficial 2

 Aquí, θ \thetaθ yφ \varphiφ representa los parámetros del codificador y la capa FC,DKL [ . ∣ ∣ . ] D_{KL}[.||.]DKL _[ .∣∣. ] muestra divergencia KL,yyy representa la etiqueta. Tenga en cuenta quep ( y ∣ fcatl ) p\left(y|f_{cat}^l\right)pag( y∣f _ _gato _ _yo)p ( y ∣ fpl ) p\left(y|f_p^l\right)pag( y∣f _ _pagyo) ambas representan distribuciones condicionales y, en la práctica, son el resultado de extra lineales (consulte el material complementario para obtener más detalles).

M \mathbb{M}El refinamiento de M esencialmente agrega de forma iterativa información discriminativa y diluye la interferencia irrelevante para la tarea. Una solución ingenua sería agregar la salida de IB aM \mathbb{M}Cada episodio de M. Pero esta solución genera enormes costos de espacio y tiempo y produce un rendimiento deficiente (consulte la Sección 3.4). En resumen,proponemos perfeccionar el banco de memoria mediante actualizaciones de impulso. Formalmente,M \mathbb{M}M se actualiza a través de:

oficial 3

 Entre ellos, λ ∈ [ 0 , 1 ) \lambda\in[0,\ 1)yo[ 0 , 1 ) es un coeficiente de momento,f B l ∈ R d f_B^l\in\mathbb{R}^dFByoRd representa la salida de IB en el episodio actual.

De esta manera, la memoria debería ser en general expresiva, consistente y más eficiente. La representación del prototipo mejorado combina y agrega aún más la minería de metaconocimiento y se utiliza para facilitar el razonamiento en FSL, como se describe a continuación .

2.3 Módulo de expansión de gráficos

 Para una tarea invisible, los humanos no utilizan todo el conocimiento, sino que utilizan algunos conceptos relacionados ricos en información para abstraer la nueva tarea. Inspirándonos en esto, proponemos un método de minería de metaconocimiento para simular este comportamiento . La idea central detrás de nuestro enfoque es agregar características similares en lugar de todo el banco de memoria para ayudar a nuestro modelo a aprender nuevos conceptos para hacer frente a tareas invisibles. En particular, utilizamos el Módulo de aumento de gráficos (GAM) para capturar la relación entre el contexto de una tarea específica y los conceptos relacionados. Luego, sus similitudes se propagan a través de una red neuronal gráfica [Kim et al, 2019], donde cada capa realiza actualizaciones de características de nodo y características de borde para permitir una inferencia rápida y completa.

Minería de metaconocimiento . para todosCada centroide de clasefcenl [ i ] f_{cen}^l[i] en l conjuntoFce sustantivo, masculino—yo[ i ] , primero calculamosfcenl [i] f_{cen}^l[i]Fce sustantivo, masculino—yo[ i ] y memoriaM \mathbb{M}Similitud coseno entre cada prototipo en M. Luego elegimosfcenl [ i ] f_{cen}^l[i]Fce sustantivo, masculino—yo[ yo ] kk__k vecinos más cercanos, expresados ​​comoMK = { m 1 , m 2 , . . . , mk } MK=\left\{m_1,\ m_2,\ ...,\ m_k\right\}mk _={ m1, metro2, ... , metrok} . Para realizar la agregación, usamos el centroidefcenl [ i ] f_{cen}^l[i]Fce sustantivo, masculino—yo[ i ] y seleccionó la incrustaciónmj m_jmetrojCoeficiente de atención calculado :

oficial 4

 Entre ellos ⟨ ⋅ , ⋅   \left\langle⋅, ⋅\right\rangle,⋅  representa la similitud del coseno entre dos vectores,τ \tauτ es un parámetro escalar. Finalmente,los nodos de metaconocimiento de cada clasecomo:

oficial 5

 Entre ellos [ ⋅ ; ⋅ ] [\cdot;\ \cdot][ ; ] es la operación de empalme,fagg ( ⋅ ; θ agg ) f_{agg}\left(\cdot;\theta_{agg}\right)Fun gg( ;iun gg) transforma las entidades concatenadas compuestas de capas completamente conectadas:R 2 d → R d \mathbb{R}^{2d}\rightarrow\mathbb{R}^dR2 díasRd , el conjunto de parámetros esθ agg \theta_{agg}iun gg

Inicialización de gráficos mejorada . Para N − vía K − S caliente N-vía\ K-Shotnortecamino k _ _ Tarea de tiro , dadas las características extraídas del codificador y el metaconocimiento extraído, construir un gráfico completamente conectado G = ( V , E ) G=\left(V,\ E\right)GRAMO=( V , E ) ,其中V = { vit } i = 1 N × K + T ∪ { vim } i = 1 N = { vi } i = 1 N × ( K + 1 ) V=\left\{v_i^t\right \}_{i=1}^{N\times K+T}\cup\left\{v_i^m\right\}_{i=1}^N=\left\{v_i\right\}_{ i=1}^{N\veces\izquierda(K+1\derecha)}V={ vit}yo = 1norte × k + t{ vim}yo = 1norte={ vyo}yo = 1norte × ( k + 1 )E = { eij } i , j = 1 , . . . , ∣ V ∣ E=\left\{e_{ij}\right\}_{i,\ j=1,...,\ |V|}mi={ miyo}i , j = 1 , ... , V  representan el conjunto de nodos y aristas respectivamente. Este nodo contiene dos tipos de puntos, a saber, nodos relacionados con tareas V t V^tVt y nodo de metaconocimientoV m V^mVm . El borde representa la similitud entre dos nodosy se inicializa como:

oficial 6

 Donde S ^ = S ∪ V m \hat{S}=S\cup V^mS^=SVm representa la unión del conjunto de soporte y el metaconocimiento mejorado. Por lo tanto, el metaconocimiento se incrementa en las tareas de razonamiento existentes y permite que el modelo se adapte a nuevas tareas aprovechando los conceptos aprendidos.

Actualizaciones de características del nodo . Dado de la capa ℓ − 1 \ell-11vi ℓ − 1 v_i^{\él-1}vi 1eij ℓ − 1 \mathbf{e}_{ij}^{\ell-1}miyo 1,层ℓ \ellNodo característico vi de ℓ v_i^\ellviActualizado a través de un proceso de agregación vecinal. La agregación está ponderada por la similitud de los bordes entre dos vecinos. La transformación de características también se realiza para normalizar las características. Matemáticamente, la actualización de características del nodo se define como:

oficial 7

 Entre ellos [ ⋅ ; ⋅ ] [·; ·][ ⋅; ⋅] es una operación en serie,fnode ( ⋅ ; θ node ) f_{node}\left(\cdot;\ \theta_{node}\right)Fnodo _ _ _( ; inodo _ _ _) es un bloque de transformación que consta de dos capas convolucionales [Glorot et al, 2011; Ioffe y Szegedy, 2015], una activación de LeakyReLU y una capa de abandono.

Actualizaciones de funciones de Edge . La actualización de la característica de borde se basa en la característica de nodo recientemente actualizada vi ℓ v_i^\ellviTerminado. Vuelva a calcular la similitud entre cada par de nodos, combinado con el valor propio eij ℓ e_{ij}^\ell del borde anteriormiyoy la similitud actualizada, actualiza cada arista eij ℓ − 1 \mathbf{e}_{ij}^{\ell-1}miyo 1Las características son:

oficial 8

 其中fedge ( ⋅ ; θ borde ) f_{edge}\left(\cdot;\ \theta_{edge}\right)Fe d g e( ; ie d g e) Borde Koreyuθ\theta_{edge}ie d g eRed métrica parametrizada, que incluye cuatro bloques convolucionales, una capa de normalización por lotes, una capa de activación LeakyReLu y una capa de abandono. Cabe destacar que nuestro GAM se puede implementar con cualquier otro GNN y mejorar significativamente su rendimiento.

2.4 Predicción y optimización

 Cuando la optimización es compleja, el nodo vi v_ivyoPertenece a C k C_kCkLa probabilidad prevista de se puede expresar como:

oficial 9

 Adjunte ( yj = C k ) \delta\left(y_j=C_k\right)d( yj=Ck) es la función delta de Kronecker, cuandoyj = C k y_j=C_kyj=Ckes igual a 1, en caso contrario es cero, eij e_{ij}miyoRepresenta dos nodos vi v_ivyoy vj v_jvjcaracterísticas de borde entre. Luego, esta probabilidad se normaliza utilizando una capa softmax.

 Durante la fase de metaentrenamiento, nuestro modelo se optimiza minimizando la pérdida de entropía cruzada binaria (BCE):

oficial 10

 ei e_imiyo y ^ i ℓ {\hat{y}}_i^\ell y^ison los hechos básicos de la etiqueta del borde del nodo de consulta y la predicción del borde de la consulta, respectivamente, λ ℓ \lambda_\ellyoes el ℓ \ellℓCoeficiente de capa. Para hacer que los nodos de metaconocimiento sean consistentes con las etiquetas predichas, también introducimos otra pérdida binaria de entropía cruzada (BCE)L m \mathcal{L}_mlmpara estimar la diferencia entre el valor real y la predicción de la etiqueta de borde del nodo de metaconocimiento.

 Finalmente, la pérdida total L \mathcal{L}L se puede definir como:

oficial 11

 donde α \alphaα es el equilibrioL q \mathcal{L}_qlqy L m \mathcal{L}_mlmcoeficiente. En nuestros experimentos, fijamos α = 0,2 \alpha=0,2a=0,2 yβ = 0,01 \beta=0,01b=0,01

3. Experimentar

3.1 Configuración experimental

conjunto de datos . Evaluamos nuestro método frente a cuatro puntos de referencia de aprendizaje de pocas oportunidades siguientes [Yang et al, 2020]: miniImageNet [Vinyals et al, 2016], tieredImageNet [Ren et al, 2018], CUB-200-2011 [Wah et al, 2011] y CIFAR-FS [Bertinetto et al, 2018]. Entre ellos, miniImageNet y tieredImageNet se recopilan de ImageNet, y CIFAR-FS es un subconjunto de CIFAR-100. A diferencia de estos conjuntos de datos, CUB-200-2011 es un conjunto de datos de clasificación de aves detallados.

Evaluación . Para la evaluación, todos los resultados se obtuvieron según el protocolo estándar de clasificación de pocos disparos: 5 - vías 1 - disparo 5 vías\ 1 disparo5camino 1 _ _ disparo5 disparo 5 disparos5tareas de disparo . _ Ya sea en configuraciones de 1 disparo o de 5 disparos, solo se utiliza 1 muestra de consulta por clase para probar la precisión. Informamos la precisión promedio (%) de 10.000 eventos generados aleatoriamente y el intervalo del 95 % en el conjunto de prueba. Tenga en cuenta que todos los hiperparámetros se determinan en función del conjunto de validación.

3.2 Detalles de implementación

Arquitectura de red . Utilizamos dos redes como nuestra columna vertebral del codificador (es decir, ConvNet y Resnet12 [Kim et al, 2019; Lee et al, 2019]). ConvNet contiene cuatro bloques, cada bloque incluye una capa convolucional 3x3, una capa de normalización por lotes y una capa de activación LeakyReLU. De manera similar, ResNet12 consta de cuatro bloques residuales. Para una comprensión completa, consulte [He et al, 2016]. Después de la red troncal, hay una capa de agrupación promedio global y una capa completamente conectada para producir incrustaciones de instancias de 128 dimensiones.

entrenamiento . En la etapa previa al entrenamiento, la línea de base posterior al trabajo anterior [Chen et al, 2020] se entrena desde cero con un tamaño de lote de 128 minimizando la pérdida de entropía cruzada estándar de la clase base. Después de eso, seleccionamos aleatoriamente 40 episodios por iteración para entrenar ConvNet en la etapa de metaentrenamiento. Esta estrategia de muestreo es ligeramente diferente de ResNet12, donde para tareas de 5 vías y 5 disparos, debido al costo de la memoria, solo tomamos muestras de 20 conjuntos por iteración. El optimizador Adam se utiliza en todos los experimentos con una tasa de aprendizaje inicial de 10 −3 . Disminuimos la tasa de aprendizaje en 0,1 cada 8000 iteraciones y establecemos la disminución del peso en 10 −5 . Entrenamos durante un total de 50.000 épocas y el codificador se congeló durante las primeras 25.000 iteraciones.

3.3 Principales resultados

 En esta sección, demostramos la efectividad de nuestro enfoque en relación con los métodos más modernos. Para una comparación justa, adoptamos dos redes neuronales de gráficos representativos de pocas muestras, a saber, EGNN y DPGN, como nuestro módulo GAM. Además, al utilizar dos redes troncales, ConvNet y ResNet12, informamos el rendimiento de 5 vías\1 disparo en todos los conjuntos de datos de referencia en 5 vías, 1 disparo.5camino 1 _ _ s h o t5 − vía 1 − disparo 5 vías\ 1 disparo5camino 1 _ _ Ajustes de disparo para una evaluación integral.

Resultados del reconocimiento universal de objetos . Para la clasificación general de objetos, evaluamos nuestro método en miniImageNet, tieredImageNet y CIFAR-FS e informamos los resultados en la Tabla 1. Las principales observaciones son las siguientes : 1) El método propuesto supera a todos los competidores, lo que demuestra la eficacia de nuestro método. Además, el rendimiento obtenido con ResNet12 es mejor que el de ConvNet debido a mejores capacidades de representación. 2) Independientemente de qué red neuronal gráfica se utilice, el método propuesto supera significativamente la línea de base y tiene claras ventajas. 3) En 1 − disparo 1 disparo1s h o t5 − disparo 5 disparos5En la configuración de disparo , nuestro método es básicamente estable con el mejor rendimiento. Debido a la purificación de la memoria, en1 − disparo 1 disparo1La mejora es más significativa en el entorno de disparo . Por tanto, nuestro método parece ser más eficaz ante nuevas tareas con menos muestras.

Los resultados de la clasificación detallada . Para el problema de clasificación de aves de grano fino, la Tabla 1 informa los resultados de CUB-200-2011. En particular, nuestro método también supera significativamente a otros competidores. Tenga en cuenta que en este conjunto de datos, diferentes redes neuronales gráficas y redes troncales tienen menos impacto en el rendimiento .

Discusión . Dado que el método propuesto se basa en el marco GNN, nuestro método se puede integrar de manera flexible en cualquier método GNN avanzado. Nuestros resultados muestran que el rendimiento de los GNN mejora significativamente utilizando memoria purificada y módulos GAM .

tabla 1

Tabla 1: Precisión de clasificación de tiros pequeños para cuatro puntos de referencia de aprendizaje de tiros pequeños. "+" indica el resultado que reimplementamos usando el código oficial. El rojo indica un rendimiento óptimo, el azul indica un rendimiento subóptimo. La fuente en negrita indica nuestros resultados.

3.4 Estudios de ablación

 Proporcionamos experimentos para confirmar nuestras principales afirmaciones: 1) La memoria purificada puede promover una rápida adaptación. 2) El metaconocimiento y el GAM pueden promover los modelos GNN existentes. Todos los experimentos se realizaron en TieredImageNet, utilizando 5 vías 1 disparo de ResNet12 5 vías \ 1 disparo5camino 1 _ _ ajustes de disparo . _ 5 − disparo 5 disparostambién se muestra en el material complementario5Resultados cuantitativos del disparo .

Efectos depurativos de la memoria . Comparamos cuatro bancos de memoria diferentes y los resultados se muestran en la Figura 2. Tenga en cuenta que cuando no hay memoria, la línea base degenera a EGNN. Podemos sacar las siguientes conclusiones : 1) GAM puede mejorar el rendimiento de los modelos GNN sin la ayuda de la memoria e incluso puede combinarse con los centros de clases del conjunto actual. 2) Tres bancos de memoria diferentes superan significativamente la línea base sin memoria, lo que muestra la importancia del metaconocimiento. 3) La memoria basada en prototipos es más eficiente, lo que confirma nuestra hipótesis de que almacenar la característica completa es una solución subóptima. 4) Los resultados experimentales respaldan nuestra motivación para obtener la mejor representación del prototipo para cada categoría. Al mismo tiempo, el costo de la memoria del método propuesto parece permanecer en el mismo nivel en comparación con la línea de base.

Figura 2

Figura 2: Estudio de ablación al utilizar diferentes mecanismos de memoria. “B”: nuestra línea de base (EGNN); “Non-Mem”: nodos de metaconocimiento implementados por el centro de clases del episodio actual; “Naive-Mem”: memoria que almacena todas las características; “PB-Mem”: prototipo- memoria basada.

Impacto del GAM . Para demostrar la efectividad de nuestro módulo de aumento de gráficos, primero visualizamos el espacio de incrustación en la Figura 3. En particular, seleccionamos aleatoriamente 5 clases, cada una de las cuales contiene 200 muestras de TieredImageNet. Proyectamos las características entrenadas por EGNN y EGNN equipado con GAM en un plano bidimensional a través de t-SNE. Los resultados muestran que el espacio de incrustación en EGNN es mixto, por lo que la capacidad discriminativa del modelo de aprendizaje es naturalmente limitada. Por el contrario, nuestro modelo es capaz de distinguir diferentes clases con mayores márgenes entre clases, por lo que obtenemos mejoras sustanciales. Esto muestra que con la ayuda de metaconocimiento purificado, la información distintiva se puede resaltar aún más a través de GAM .

 Además, para visualizar cómo el metaconocimiento ayuda al proceso de predicción, seleccionamos un escenario de prueba en el que las categorías de verdad sobre el terreno de las cinco imágenes de consulta no se superponen (es decir, 5 − vía 1 − disparo 5 vías\ 1 disparo5camino 1 _ _ shot ) y visualice la similitud a nivel de instancia como se muestra en la Figura 5. Específicamente, elegimos dos similitudes a nivel de instancia para demostrar la efectividad de nuestro método. En particular, el mapa de calor muestra que GAM mejora la matriz de similitud a nivel de instancia después de varias capas y realiza predicciones correctas para cinco muestras de consulta en la última capa en comparación con EGNN. También podemos encontrar que esta mejora se debe al aumento de nodos de metaconocimiento. Debido al concepto de purificación, los mapas de calor son inherentemente limpios y, por lo tanto,el metaconocimiento proporciona una supervisión secundaria sólida. Estas similitudes luego se propagan a través de redes neuronales gráficas, lo que permite que el modelo explote los conceptos de memoria y conocimiento aprendidos de nuevas tareas. Este resultado experimental apoya convincentemente nuestra hipótesis.

La influencia de los k vecinos más cercanos . En la etapa de extracción de metaconocimiento, recuperamos los k k más similares de la memoria.k muestras para aumentar el gráfico. Aquí discutimos cuandokkSu influencia cuando k cambia. Como se muestra en la Figura 4,cuando kkA medida que k aumenta, el rendimiento del reconocimiento de pocos disparos continúa mejorando.Cuando k aumenta hasta un cierto valor, la precisión comienza a disminuir en ambos conjuntos de datos. Por lo tanto, se recomienda establecer este valor en 6 como regla general.

imagen 3

Figura 3: resultados de visualización de t-SNE obtenidos de nuestro método y EGNN. Los diferentes colores representan diferentes categorías.

Figura 4

Figura 4: Impacto en el rendimiento de los k vecinos más cercanos.

Figura 5

Figura 5: Visualización de predicciones de bordes en cada capa de nuestro método. Los subgrafos de izquierda a derecha representan las predicciones de la red neuronal gráfica desde la capa 1 a la capa 3. Los colores más oscuros representan puntuaciones más altas, los colores más claros representan menor confianza. El eje izquierdo representa el índice de las 5 imágenes de consulta y el eje inferior representa las 5 clases de soporte o nuestros nodos de metaconocimiento.

4. Conclusión

En este trabajo, proponemos un nuevo esquema de actualización de la memoria de aprendizaje de pequeña escala para purificar gradualmente la información de las etiquetas semánticas desde la perspectiva de la teoría de la información. La memoria purificada suele ser expresiva, consistente, eficiente y luego funciona de forma natural con módulos de mejora de gráficos. GAM explota aún más el metaconocimiento y el conocimiento aprendido de nuevas tareas para realizar predicciones precisas. Esta solución es un módulo independiente del modelo que se puede integrar de manera flexible en cualquier método GNN avanzado.

referencias

[Bertinetto et al, 2016] Luca Bertinetto, Jack Valmadre, Joao F Henriques, Andrea Vedaldi y Philip HS Torr. Redes siamesas totalmente convolucionales para seguimiento de objetos. En conferencia europea sobre visión por computadora, páginas 850–865. Springer, 2016.
[Bertinetto et al, 2018] Luca Bertinetto, Joao F Henriques, Philip HS Torr y Andrea Vedaldi. Metaaprendizaje con solucionadores de forma cerrada diferenciables. Preimpresión de arXiv arXiv:1805.08136, 2018.
[Chen et al, 2020] Yinbo Chen, Xiaolong Wang, Zhuang Liu, Huijuan Xu y Trevor Darrell. Una nueva metabase para el aprendizaje en pocas oportunidades. Preimpresión de arXiv arXiv:2003.04390, 2020.
[Finn et al, 2017] Chelsea Finn, Pieter Abbeel y Sergey Levine. Metaaprendizaje independiente del modelo para una rápida adaptación de redes profundas. En Actas de la 34ª Conferencia Internacional sobre Aprendizaje Automático, Volumen 70, páginas 1126–1135. JMLR. org, 2017.
[García y Bruna, 2017] Víctor García y Joan Bruna. Aprendizaje en pocas oportunidades con redes neuronales gráficas. Preimpresión de arXiv arXiv:1711.04043, 2017.
[Glorot et al, 2011] Xavier Glorot, Antoine Bordes y Yoshua Bengio. Redes neuronales rectificadoras dispersas y profundas. En Actas de la decimocuarta conferencia internacional sobre inteligencia artificial y estadística, páginas 315–323, 2011.
[He et al, 2016] Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 770–778, 2016.
[Ioffe y Szegedy, 2015] Sergey Ioffe y Christian Szegedy. Normalización de lotes: acelerar el entrenamiento profundo de la red al reducir el cambio de covariables interno. Preimpresión de arXiv arXiv:1502.03167, 2015.
[Kim et al, 2019] Jongmin Kim, Taesup Kim, Sungwoong Kim y Chang D Yoo. Red neuronal de gráficos de etiquetado de bordes para un aprendizaje en pocas oportunidades. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 11 a 20, 2019.
[Lee et al, 2019] Kwonjoon Lee, Subhransu Maji, Avinash Ravichandran y Stefano Soatto. Metaaprendizaje con optimización convexa diferenciable. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 10657–10665, 2019.
[Liu et al, 2018] Yanbin Liu, Juho Lee, Minseop Park, Saehoon Kim, Eunho Yang, Sung Ju Hwang y Yi Yang. Aprender a propagar etiquetas: red de propagación transductiva para un aprendizaje de pocas oportunidades. Preimpresión de arXiv arXiv:1805.10002, 2018.
[Liu et al, 2020] Bin Liu, Yue Cao, Yutong Lin, Qi Li, Zheng Zhang, Mingsheng Long y Han Hu. El margen negativo importa: comprender el margen en la clasificación de pocos tiros. Preimpresión de arXiv arXiv:2003.12060, 2020.
[Long et al, 2015] Jonathan Long, Evan Shelhamer y Trevor Darrell. Redes totalmente convolucionales para segmentación semántica. En Actas de la conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 3431–3440, 2015.
[Noh et al, 2017] Hyeonwoo Noh, Andre Araujo, Jack Sim, Tobias Weyand y Bohyung Han. Recuperación de imágenes a gran escala con características locales profundas y atentas. En Actas de la conferencia internacional IEEE sobre visión por computadora, páginas 3456–3465, 2017.
[Ramalho y Garnelo, 2019] Tiago Ramalho y Marta Garnelo. Aprendizaje posterior adaptativo: aprendizaje en pocas oportunidades con un módulo de memoria basado en sorpresas. Preimpresión de arXiv arXiv:1902.02527, 2019.
[Ren et al, 2018] Mengye Ren, Eleni Triantafillou, Sachin Ravi, Jake Snell, Kevin Swersky, Joshua B Tenenbaum, Hugo Larochelle y Richard S Zemel. Metaaprendizaje para clasificación semisupervisada de pocos disparos. Preimpresión de arXiv arXiv:1803.00676, 2018.
[Snell et al, 2017] Jake Snell, Kevin Swersky y Richard Zemel. Redes prototípicas para el aprendizaje en pocas oportunidades. En Avances en sistemas de procesamiento de información neuronal, páginas 4077–4087, 2017.
[Sung et al, 2018] Flood Sung, Yongxin Yang, Li Zhang, Tao Xiang, Philip HS Torr y Timothy M Hospedales. Aprender a comparar: red de relaciones para un aprendizaje de pocas oportunidades. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, páginas 1199–1208, 2018.
[Tian et al, 2020] Yonglong Tian, ​​Yue Wang, Dilip Krishnan, Joshua B Tenenbaum y Phillip Isola. Repensar la clasificación de imágenes de pocas tomas: ¿todo lo que necesitas es una buena incrustación? Preimpresión de arXiv arXiv:2003.11539, 2020.
[Tishby y Zaslavsky, 2015] Naftali Tishby y Noga Zaslavsky. Aprendizaje profundo y el principio del cuello de botella de la información. En 2015 Taller de teoría de la información del IEEE (ITW), páginas 1 a 5. IEEE, 2015.
[Vinyals et al, 2016] Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al Emparejamiento de redes para un aprendizaje único. En Avances en sistemas de procesamiento de información neuronal, páginas 3630–3638, 2016.
[Wah et al, 2011] C. Wah, S. Branson, P. Welinder, P. Perona y S. Belongie. El conjunto de datos Caltech-UCSD Birds-200-2011. Informe técnico, 2011.
[Wang et al, 2020] Zeyuan Wang, Yifan Zhao, Jia Li y Yonghong Tian. Métrica bidireccional cooperativa para el aprendizaje en pocas oportunidades. En Actas de la 28.ª Conferencia Internacional ACM sobre Multimedia, páginas 1524–1532, 2020.
[Yang et al, 2020] Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou y Yu Liu. Dpgn: Red de gráficos de propagación de distribución para aprendizaje de pocas oportunidades. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones, páginas 13390–13399, 2020.

Supongo que te gusta

Origin blog.csdn.net/weixin_42475026/article/details/131310206
Recomendado
Clasificación