Combinación de redes neuronales profundas para la selección de funciones por instancias: selección de funciones por instancias basada en redes neuronales profundas mixtas

Mezcla de redes neuronales profundas para la selección de características por instancias

Selección de características de instancia basada en redes neuronales profundas híbridas

Resumen

En los modelos de aprendizaje automático, el aprendizaje de características relevantes es importante para interpretar los datos. La selección de características de instancia es más flexible para la interpretación del modelo que la selección de un subconjunto relevante de características para todos los datos. Sin embargo, los métodos actuales de selección de características basados ​​en instancias son complejos y computacionalmente intensivos. Consideramos la selección de características de instancia en el marco del aprendizaje supervisado. Diseñamos una red neuronal compacta e interpretable para abordar este problema. Para reducir el cómputo y lograr una mejor interpretabilidad, agrupamos características relacionadas y construimos una red neuronal híbrida. Usando softmax como la función de activación para la selección de submodelos, la membresía del modelo se puede aprender con precisión mediante el descenso de gradiente. Hasta donde sabemos, nuestro modelo es el primer modelo de red neuronal profunda interpretable que utiliza entrenamiento de extremo a extremo para la selección de características de instancias.

elemento de índice

Selección de características de instancia, aprendizaje profundo, mezcla de modelos.

I. INTRODUCCIÓN

La interpretabilidad es fundamental para los modelos de aprendizaje automático, ya que se aplican en áreas como los mercados financieros, la medicina y la seguridad. Debido a la alta dimensionalidad y la gran cantidad de datos, los modelos complejos de aprendizaje automático, como los métodos kernel, los métodos de conjunto y las redes neuronales profundas, pueden lograr una alta precisión, pero los resultados son difíciles de interpretar. La selección de características recoge características relevantes a nivel mundial para todo el conjunto de datos, mientras que la selección de características de instancia genera explicaciones para cada muestra de datos. [1] propuso un método de selección de características basado en instancias para explicar el modelo, que se llama aprender a explicar (L2X, Aprender a explicar). Utiliza información mutua como criterio para evaluar la importancia de las características.

Antes de L2X, la mayoría de los métodos de explicación se basaban en modelos de entrenamiento para analizar la importancia de las características de las muestras individuales. Similar a [2], [3], el modelo se explica mediante una aproximación de modelo localmente aditiva. La referencia [4] selecciona características importantes en función del gradiente de la salida con respecto a la entrada. La selección de características de instancia proporciona una forma de interpretar los modelos integrados durante el entrenamiento. Esto mejora la precisión del modelo al extraer características relevantes. Para propagar hacia atrás los gradientes a través del muestreo de subconjuntos, L2X usa el truco de Gumbel-softmax en [5] para seleccionar las principales características relevantes para cada muestra. Sin embargo, l suele ser desconocido hasta que interpretamos el modelo . Además, no todos los datos pueden tener el mismo número de características relevantes. En [6], se utiliza una red neuronal (INVASE) para la selección de variables de instancia como modelo para eliminar la limitación L2X. El modelo consta de tres redes neuronales profundas: una red selectora, una red de predicción y una red de referencia. Utiliza la gran capacidad de las redes neuronales para construir redes de predicción y selección de características. Para optimizar la red, emplea un marco actor-crítico que permite la retropropagación a través del muestreo.

Para probar el rendimiento, [6] genera diferentes datos simulados. En algunos conjuntos de datos, diferentes muestras de datos pueden tener diferentes números de características asociadas. Para estos conjuntos de datos, [6] puede lograr una alta precisión y seleccionar las características relevantes correctas. También puede identificar características correlacionadas cuando todos los datos comparten un subconjunto global de características correlacionadas. Ni [1] ni [6] restringen el espacio de búsqueda por muestra. Da como resultado un espacio de búsqueda exponencial, por lo que ambos algoritmos son computacionalmente costosos.

Para reducir el espacio de búsqueda, nuestro trabajo asume que el número de posibles subconjuntos de características relevantes es fijo. Proponemos un modelo mixto para satisfacer esta suposición. Dicho cómputo condicional puede mantener una gran capacidad de aprendizaje con un pequeño aumento en el cómputo. Mostraremos que nuestro modelo puede lograr una alta precisión y proporcionar una mejor interpretabilidad. Nuestro enfoque se limitará a problemas en los que el número de posibles subconjuntos de características relevantes no sea demasiado grande. De lo contrario, un enfoque no paramétrico sería más apropiado.

Nuestra estructura de red es similar al modelo mixto propuesto en [7]. Las redes neuronales híbridas dispersas explotan los cálculos condicionales para lograr una mayor capacidad sin escalar el cálculo. Sin embargo, dichos modelos no se han utilizado para la selección de características de instancias y la interpretación de modelos. [7] no considera el caso en el que un solo modelo determina la salida, que es el foco de nuestra atención. Hasta donde sabemos, nuestro trabajo es el primero en utilizar una red neuronal profunda híbrida (DNN) para resolver un problema de instancia. Basado en el descenso de gradiente estocástico, nuestro modelo puede resolver este problema de manera muy precisa y eficiente, con buena interpretabilidad.

II. FORMULACIÓN DEL PROBLEMA

En un entorno de aprendizaje supervisado, consideramos un problema de selección de características de instancia. Nos enfocamos en problemas de clasificación y nuestros modelos se pueden extender fácilmente a la regresión. Supongamos que tenemos N pares de datos de entrenamiento iid (xi, yi) i = 1N, donde x ∈ X en Rd representa los datos de entrada, y y ∈ {1,...,C} representa los datos de entrada es la etiqueta de salida discreta. Nos enfocamos en dos objetivos, predicción y selección de características de instancia. Pronosticar es revelar la relación entre x e y. La selección de características de instancia consiste en seleccionar un vector de subconjunto de características s ∈ {0, 1}d para representar cada muestra de datos, donde si=1 significa que se selecciona la característica i-ésima, y ​​si=0 significa que se selecciona la característica i-ésima. no seleccionado. Un buen s debe correlacionarse con la predicción de la etiqueta de salida correspondiente y. La selección de características por instancias tiene como objetivo encontrar una función selectora S: X → {0, 1}d tal que para casi todos los pares de datos (x, y),

Captura de pantalla 2021-11-22 9.20.48 p. m.

En el marco de clasificación, el criterio para evaluar S está integrado en la diferencia entre las estimaciones yˆ de xey. Usamos entropía cruzada para cuantificar la diferencia. También se pueden utilizar otras pérdidas, como la pérdida por mínimos cuadrados, la precisión, etc. Para la parte discriminativa, el objetivo es comprender la relación entre x e y. Como se usa comúnmente en las DNN, representamos y usando un vector de probabilidad p tal que el i-ésimo elemento de p es igual a P(y=i|X), i=1,2,...,C.

Permita que ∆C-1 denote C-1 símplex:

Captura de pantalla 2021-11-22 9.28.30pm

Deseamos construir una función f:Rd→∆C-1 que genere el vector de probabilidad de clase predicho p de la muestra de datos x. La función f estará parametrizada por θ y se escribirá como f(x;θ). Combina la selección de características de instancia con el aprendizaje discriminativo. Clasificaremos los gradientes de algunas funciones objetivas frente a las características disponibles para identificar características relevantes para cada instancia. Esto se tratará en detalle en la siguiente sección. La entropía cruzada entre la etiqueta verdadera y de la muestra x y la etiqueta estimada se puede expresar como:

Captura de pantalla 2021-11-22 9.37.35pm

Entre ellos, el subíndice c se refiere al elemento c-ésimo de f(x;θ).

tercero MODELO PROPUESTO

INVASE asume que cada muestra puede tener un subconjunto diferente de características relevantes. Cada ejemplo tiene un subconjunto 2d de posibles características. Para N muestras de entrenamiento, el número de posibles resultados de selección es 2dN. El espacio de búsqueda es un exponente de la dimensionalidad de los datos y del tamaño de la muestra. En la práctica, es más probable que los puntos de datos sean generados por algún "patrón", por lo que dentro de cada patrón hay un conjunto de características relacionadas. Con base en esta observación, imponemos la restricción de que solo hay K subconjuntos de características, de modo que la característica relevante para cada muestra esté dada por uno de los K subconjuntos. En general, K ≪ 2d. Denotemos K posibles subconjuntos de características como {s{1},...,s{K}}. Cada muestra de datos x tiene un selector de características único asociado S(x) ∈ {s{1},...,s{K}}.

Para modelar las restricciones, proponemos una mezcla de K modelos discriminativos diferentes. Implementamos la selección de características instanciadas en dos pasos. Primero, necesitamos determinar de qué modelo discriminativo se toma la muestra x. En segundo lugar, el submodelo seleccionado seleccionará un vector de características global y lo asignará a la muestra.

A. Selección de submodelos

Suponemos que cada muestra se genera a partir de un solo submodelo. Use M(x): Xd → {0,1}K para asignar x al vector de selección de modelo m. M(x) genera la probabilidad de que los datos x se generen a partir del submodelo k, k=1,...,k. M debería ser un vector caliente. En este vector, solo el verdadero submodelo tiene el valor 1, de lo contrario es 0. Si el submodelo k genera un par de muestras (x, y), la distribución de probabilidad condicional es

Captura de pantalla 2021-11-23 8.53.35 am

donde Pk se refiere a la distribución condicional del k-ésimo submodelo. Más generalmente, podemos escribir P(y|x) como una combinación lineal de K submodelos

Captura de pantalla 2021-11-23 8.58.44 am

Usamos un estimador Mˆ(x) para aproximar M(x). Si restringimos Mˆ(x) para generar un vector caliente, el problema se vuelve discreto, lo que también hace que la función de pérdida no sea diferenciable. Por lo tanto, el descenso de gradiente no se puede utilizar para optimizar la pérdida. Para superar este obstáculo, relajamos la restricción y dejamos que Mˆ(x) sea una sola aplicación ∆K−1 de Xd a K−1.

La función softmax σ: RK → RK se usa a menudo como normalización de probabilidad. Se define mediante la siguiente fórmula:

Captura de pantalla 2021-11-23 9.56.05 am

Tomando como ejemplo la función Mˆ(x), el submodelo se modela con una capa de red neuronal con función de activación softmax

Captura de pantalla 2021-11-23 10.00.53 am

B. Discusión

1) Por qué elegir softmax: la diferencia clave entre nuestro modelo y los modelos ordinarios es la capa de selección del modelo, que es crucial para el problema. Si podemos predecir el submodelo correcto para cada muestra de datos, podemos agrupar los datos según las etiquetas del modelo. Después de esto, el problema se vuelve trivial ya que solo necesitamos resolver K problemas de selección de características globales. Por lo tanto, la selección de submodelos es el cuello de botella de la optimización del modelo. Si usamos argmax como la función de activación, significa que la neurona de salida es una función constante por partes de los parámetros. De acuerdo con las reglas de retropropagación, todos los submodelos eligen parámetros que siempre tienen 0 gradientes. Por lo tanto, es imposible entrenar la red con descenso de gradiente. Otra forma es mantener el valor máximo y establecer el valor restante en 0. Aunque [7] puede usar directamente la retropropagación para entrenar la red, la razón es que eligen varios modelos en lugar de uno solo. Para la interpretación probabilística, se aplicará softmax después de seleccionar el modelo más probable. Cuando se seleccionan varios modelos, la función softmax se puede normalizar y la salida no es constante por tramos, sino que varía en el espacio símplex. Por lo tanto, el gradiente no siempre será 0. Sin embargo, en nuestro caso, con solo un submodelo seleccionado, el valor siempre estará normalizado a la constante 1, por lo que tendrá un gradiente de 0.

Para abordar este problema, [8] propone un estimador "directo" para aproximar el gradiente. Se diseña una red neuronal binaria y reglas de retropropagación. Sin embargo, estos métodos no son precisos ni fáciles de implementar.

Por lo tanto, usamos softmax como activación, que muestra un buen rendimiento en la predicción del modelo sin ningún término de regularización. Las probabilidades estimadas del modelo son casi escasas. Durante la fase de inferencia, asignaremos las muestras al submodelo con el mayor valor de probabilidad del modelo.

2) Sin regularización: para aproximar el vector one-hot, se puede agregar un término de regularización a la probabilidad del submodelo. Los vectores one-hot son escasos, por lo que se considerará la regularización de la escasez. La regularización de norma l1 comúnmente utilizada no es útil en nuestro modelo porque usamos una función softmax como activación para predecir la membresía del submodelo. La función Softmax permite que los valores de todos los miembros sumen 1. La norma l1 es siempre una constante, por lo que no puede afectar a la función de pérdida como término de penalización.

Para una combinación de dos modelos, las probabilidades de los submodelos se predicen como vectores bidimensionales uno calientes. Una posible penalización es maximizar la diferencia |mˆ1 − mˆ2| entre miembros. Cuanto más grandes son los elementos, más cerca está el vector de membresía de un vector de uno. Los términos de penalización de la forma −λ|mˆ1− mˆ2| serán cóncavos, lo que puede dificultar el problema de optimización. Cuando K > 2, hay poca regularización intuitiva para aproximar vectores calientes. Decidimos optimizar la función de pérdida sin ninguna regularización en la selección del modelo. Tomando como ejemplo el híbrido de los dos modelos, nuestros resultados numéricos muestran resultados satisfactorios. El descenso de gradiente estocástico puede obtener valores aproximadamente escasos, es decir, la diferencia entre las probabilidades de los dos modelos es bastante grande. Este fenómeno puede deberse a supuestos del modelo que se ajustan bien a los datos, y puede verse como un poderoso conocimiento previo que regula implícitamente el proceso de aprendizaje.

Mezcla de submodelos CK

Suponemos que las estimaciones del submodelo son

Captura de pantalla 2021-11-23 10.19.24 am

Comparten la misma estructura de red pero con diferentes parámetros. Por lo tanto, los parámetros θ se pueden dividir en K grupos, a saber, θ={θ1,...,θK}. El k-ésimo modelo selecciona la característica global Sk(x) ≡ sk ∈ {0,1}d. Después de la selección de características, el resultado discriminativo debe ser el mismo, es decir.

Captura de pantalla 2021-11-23 10.21.12 am

Estimamos el resultado de la clasificación de la muestra x utilizando K DNN híbridos. Entonces f se puede escribir como:

Captura de pantalla 2021-11-23 10.47.48 am

donde fk(x; θk) se usa para aproximar Pk(y|x). A continuación, fk es una red neuronal multicapa, en este caso θk consta de los pesos y sesgos de todas las capas.

Captura de pantalla 2021-11-23 10.50.04 am

Ilustramos nuestro modelo usando la Figura 1. Las probabilidades del submodelo se estiman primero utilizando una red neuronal. Luego, cada submodelo genera de forma independiente su propia distribución de etiquetas de clase. Finalmente, todas las distribuciones de etiquetas estimadas se combinan linealmente.

Para optimizar todo el modelo f, minimizaremos la suma de entropías cruzadas sobre los datos de entrenamiento. En la fase de inferencia, se asigna a la muestra la etiqueta de clase con mayor probabilidad. Además de determinar la etiqueta correcta para cada muestra de datos, otro objetivo importante es seleccionar el subconjunto de características más relevante, es decir, encontrar s{k}. Esto nos ayudará a explicar la correlación entre los datos de entrada y salida. Aproximamos s{k} usando un vector continuo ˆ{k} ∈ Rd. Usamos la magnitud de la sensibilidad de fk ax como estimador.

Captura de pantalla 2021-11-23 11.10.44 am

Los elementos de ˆs se utilizarán como puntuaciones de las características y se clasificarán de modo que las características correspondientes a los valores de l superiores se seleccionen como características relevantes.

IV. EXPERIMENTOS

Para verificar la efectividad, probamos nuestro modelo en conjuntos de datos simulados, donde las características relevantes son conocidas y verificables. Usaremos la clasificación mediana de L2X [1] para evaluar el rendimiento de la selección de características. Estas funciones se ordenarán según s{k}. Cada submodelo tiene su propia clasificación de funciones en función de todos los datos de entrenamiento. En datos simulados, se conoce la mediana de las verdaderas características relevantes. Nuestro modelo puede estimar el rango de las características verdaderas. Podemos observar la mediana del rango estimado y compararla con la realidad fundamental. También comparamos nuestro modelo con INVASE [6] y L2X [1]. Para una comparación justa, la red de predicción en INVASE [6] tiene la misma arquitectura que nuestro submodelo. Lo mismo es cierto para el modelo que se explicará en L2X [1]. Para L2X [1], su red de interpretación se muestra en [1].

En esta sección, usamos el mismo conjunto de datos diseñado por INVASE [6]. La dimensión de la entrada x es d = 11, y cada dimensión es una distribución gaussiana independiente e idénticamente distribuida (iid). La etiqueta de salida y se muestrea a partir de una distribución de Bernoulli.

Captura de pantalla 2021-11-23 2.27.34 p. m.

La función logit(x) difiere en los siguientes casos. Consideramos tanto la selección de características globales como la selección de características de instancia. La selección de características globales es un caso especial de selección de características basada en instancias. Será interesante ver si las DNN híbridas pueden tomar decisiones correctas sobre conjuntos de datos con características globales. En este caso, se prueban 3 conjuntos de datos:

Captura de pantalla 2021-11-23 2.29.01pm

El resto del conjunto de datos está diseñado para la selección de características de instancia y las etiquetas para cada muestra se generan a partir de uno de los dos submodelos. Su función logits es la siguiente:

Captura de pantalla 2021-11-23 14:30:57

Para los conjuntos de datos Syn4 y Syn5, los tamaños de los dos subconjuntos de características relevantes son diferentes. Por lo tanto, es imposible que L2X entrene el modelo, ya que requiere muestrear las características principales. Generamos 20000 muestras para todos los conjuntos de datos. Los datos se dividen aleatoriamente en 9000 muestras de datos de entrenamiento, 1000 muestras de datos de validación y 10000 muestras de datos de prueba. Los datos de validación se utilizan para monitorear el proceso de entrenamiento.

La selección de submodelos es una capa de dos nodos con activación softmax. Cada uno de estos 2 submodelos tiene la misma arquitectura de 3 capas. Tanto la primera como la segunda capa tienen nodos 2d. Cuando la red procesa los conjuntos de datos Syn1, Syn2, Syn3, la función de activación es RELU

Captura de pantalla 2021-11-23 2.34.18 p. m.

Para los conjuntos de datos Syn4, Syn5 y Syn6, la función de activación es una unidad lineal exponencial escalada (SELU)

Captura de pantalla 2021-11-23 2.34.53pm

donde λ, α se establecen con valores por defecto en [9]. La última capa generará las probabilidades de clase pronosticadas.

Usamos el marco Tensorflow [10] para implementar el proceso de aprendizaje. Para L2X [1] e INVASE [6], usamos sus implementaciones en Github. Las implementaciones de L2X e INVASE se pueden encontrar en GitHub - Jianbo-Lab/L2X y GitHub - jsyoon0823/INVASE: Codebase for INVASE: Instance-wise Variable Selection - 2019 ICLR . Todas las implementaciones se ejecutan en una GPU Nvidia GeForce GTX 1080Ti. Durante el entrenamiento, usamos la entropía cruzada como función de pérdida y la optimizamos usando Adam. La tasa de aprendizaje se establece en 0,08 y el tiempo máximo es de 3000. El proceso de entrenamiento se detiene temprano cuando el error de validación deja de disminuir por más de dos intervalos de tiempo; de lo contrario, el entrenamiento continúa hasta que se alcanza el intervalo de tiempo máximo. Usamos el decaimiento de peso para todos los pesos de red con un factor de regularización de 1e−3.

Captura de pantalla 2021-11-23 2.46.10 pm

La Tabla 1 muestra los resultados de clasificación de la mediana promedio para todos los datos de prueba. Enumera los resultados de Ground Truth, L2X, INVASE y nuestro método. Ground Truth es el resultado de clasificación mediana más bajo que todos los algoritmos pueden lograr. Cuanto más bajo sea el rango medio, mejores serán los resultados de la selección de funciones. Para Syn1, Syn2 y Syn3, casi todos los métodos excepto L2X en el conjunto de datos Syn4 pueden seleccionar con precisión las características verdaderas. Los resultados muestran que todos los métodos pueden seleccionar características globales de forma relativamente fiable. En este ejemplo, los dos submodelos de nuestro método seleccionan las mismas características relevantes. Para casos más complejos, como Syn4, Syn5 y Syn6, x11 también se considera una característica relevante y la que determina la etiqueta. Nuestros resultados son los mejores de los tres conjuntos de datos complejos. La desviación de la realidad básica se debe a errores de predicción del submodelo.

Cuando K es pequeño, nuestro modelo tiene una menor complejidad de modelo en el número de parámetros de entrenamiento. Cuando K se vuelve grande, perdemos la ventaja de la baja complejidad del modelo. Si la aproximación del vector caliente no es precisa, es posible que necesitemos más tiempo de entrenamiento. Durante la fase de inferencia, todavía tenemos una ventaja porque solo necesitamos calcular un submodelo.

CONCLUSIÓN V

En este documento, proponemos utilizar DNN híbridos para la selección de características de instancias. El modelo es compacto, fácil de interpretar y fácil de entrenar usando descenso de gradiente estocástico. Los ejemplos numéricos muestran que los resultados de la selección de funciones son precisos y se comparan con los métodos existentes. El trabajo futuro considerará escenarios más complejos, como datos de alta dimensión o pocas etiquetas. Otra extensión es la aproximación one-hot más precisa y el mecanismo de atención.

Supongo que te gusta

Origin blog.csdn.net/aab11235/article/details/121493147
Recomendado
Clasificación