Introducción a la inteligencia artificial explicable - Notas de lectura (2)

Capítulo 2 Métodos bayesianos

Modele distribuciones de probabilidad conjuntas de múltiples variables aleatorias, caracterizando la incertidumbre y la correlación en datos y modelos.

2.1 Redes bayesianas

Es una clase importante de modelos gráficos probabilísticos que principalmente resuelven problemas: representación, inferencia y aprendizaje.

Elementos clave: gráfico acíclico dirigido G, distribución de probabilidad p

expresar

Variable aleatoria X = ( X 1 , X 2 , . . . , X d ) , π k es el conjunto de nodos principales correspondientes a X k, X π k es el conjunto de variables aleatorias correspondientes X = (X_1,X_2,...,X_d), \pi_k es el conjunto de nodos principales correspondientes a X_k, X_{\pi k} es el conjunto de variables aleatorias correspondientesX=( X1,X2,... ,Xre) ,Pikes xkEl conjunto correspondiente de nodos principales, Xpaquetees el conjunto de variables aleatorias correspondientes

La distribución de probabilidad conjunta se expresa en forma de multiplicación de factores:
p ( X ) = ∏ i = 1 dp ( X i ∣ X π x ) p(X) = \prod\limits_{i=1}^dp(X_i|X_{\pi x})pag ( x )=yo = 1repag ( Xyo∣X _x_ _)
Independencia condicional: A y B son independientes dado C.

Tres estructuras básicas condicionalmente independientes: horquilla, cadena, colisión

inferir

  1. Probabilidad: Observar un valor e (también conocido como evidencia) de una variable, calculando la probabilidad del valor. (por ejemplo, calcular la probabilidad P (A = 1, D = 1) de que las poblaciones de ratones y águilas estén bien)
  2. Probabilidad condicional: Observando la evidencia e, calcular la probabilidad posterior de la probabilidad condicional de la variable no observada. (por ejemplo, suponiendo que el ratón está bien desarrollado, ¿cómo se ha desarrollado el águila P(A|D=1))
  3. Valor máximo de probabilidad posterior: Dada alguna evidencia e, calcular el valor máximo de probabilidad de no ser observado. (Igual que arriba, ¿entonces el desarrollo más probable del águila? argmax p(A=a|D=1))

Reducción de variables: un enfoque de inferencia exacta

Métodos de inferencia aproximada: dar rápidamente resultados aproximados. Hay dos categorías principales: la primera categoría es el método basado en el muestreo y el método Monte Carlo de la cadena de Markov. La segunda categoría es el método de inferencia variacional, que encuentra el más cercano a la verdadera distribución posterior como una aproximación.

Aprendizaje de redes bayesianas

  1. Aprendizaje de parámetros: suponiendo que se da la estructura de la red bayesiana, estime el parámetro óptimo o la distribución de probabilidad

    punto estimado. El indicador es la divergencia estadística. Estimación de máxima verosimilitud, equivalente a la divergencia KL.

    Método bayesiano completo: considerar los parámetros del modelo como variables aleatorias globales (previas), aplicar la fórmula bayesiana, estimar la distribución de probabilidad posterior de un parámetro y considerar todos los modelos en promedio

  2. aprendizaje estructurado

Aprendizaje de programación bayesiana

Aprendizaje de muestra pequeña: dadas varias situaciones de datos, cómo aprender un modelo adecuado para completar la predicción

Aprendizaje de programación bayesiana BPL es un modelo bayesiano jerárquico interpretable:

  1. Representación: nivel de símbolo (BPL muestra diferentes unidades básicas para construir subpartes, la relación entre partes, palabras) + nivel de entidad (plantilla dada para escribir paso a paso)

  2. Inferencia: dada una imagen, BPL infiere la distribución de probabilidad posterior de las partes, subpartes y relaciones correspondientes. (Camine al azar desde la esquina superior izquierda, pruebe todas las posibilidades y obtenga un posterior aproximado)

  3. Aprendizaje: dos niveles, aprendizaje tradicional (entrenamiento sobre muchos caracteres diferentes, inferir la distribución posterior de parámetros), aprender a aprender (transferir el aprendizaje de la experiencia previa sobre nuevos datos)

2.2 Aprendizaje profundo bayesiano

Fusión cruzada de aprendizaje bayesiano y aprendizaje profundo

  • Modelo generativo profundo: use la capacidad de ajuste de NN para describir la relación compleja de variables en el modelado de probabilidad y obtenga un modelo de probabilidad más capaz
  • Red neuronal bayesiana: la inferencia bayesiana se usa para describir la incertidumbre del modelo en el aprendizaje profundo, y el peso se cambia a una distribución de probabilidad

modelo generativo profundo

Autocodificador variacional VAE y Red Adversaria Generativa GAN. La generación de los datos ajustados de los dos es inexplicable. Lo interpretable se expresa así por la red bayesiana, y la red se ajusta al resto.

Ejemplo: Graphical-GAN, una red de confrontación de generación de gráficos probabilísticos, puede aprender automáticamente características interpretables sin anotación semántica.

red neuronal bayesiana

abandono, inferencia bayesiana aproximada sobre aprendizaje profundo

La caída de MC, que muestrea diferentes versiones aleatorias de la misma red como una distribución posterior, puede estimar la predicción promedio y también puede estimar la incertidumbre de la predicción.

De Redes Bayesianas a Modelos Causales Interpretables

El modelo causal considera variables fuera del modelo, y la relación de conexión describe la relación causal (dirigida) t.js/# Capítulo 2 Método bayesiano

Modele distribuciones de probabilidad conjuntas de múltiples variables aleatorias, caracterizando la incertidumbre y la correlación en datos y modelos.

2.1 Redes bayesianas

Es una clase importante de modelos gráficos probabilísticos que principalmente resuelven problemas: representación, inferencia y aprendizaje.

Elementos clave: gráfico acíclico dirigido G, distribución de probabilidad p

expresar

Variable aleatoria X = ( X 1 , X 2 , . . . , X d ) , π k es el conjunto de nodos principales correspondientes a X k, X π k es el conjunto de variables aleatorias correspondientes X = (X_1,X_2,...,X_d), \pi_k es el conjunto de nodos principales correspondientes a X_k, X_{\pi k} es el conjunto de variables aleatorias correspondientesX=( X1,X2,... ,Xre) ,Pikes xkEl conjunto correspondiente de nodos principales, Xpaquetees el conjunto de variables aleatorias correspondientes

La distribución de probabilidad conjunta se expresa en forma de multiplicación de factores:
p ( X ) = ∏ i = 1 dp ( X i ∣ X π x ) p(X) = \prod\limits_{i=1}^dp(X_i|X_{\pi x})pag ( x )=yo = 1repag ( Xyo∣X _x_ _)
Independencia condicional: A y B son independientes dado C.

Tres estructuras básicas condicionalmente independientes: horquilla, cadena, colisión

inferir

  1. Probabilidad: Observar un valor e (también conocido como evidencia) de una variable, calculando la probabilidad del valor. (por ejemplo, calcular la probabilidad P (A = 1, D = 1) de que las poblaciones de ratones y águilas estén bien)
  2. Probabilidad condicional: Observando la evidencia e, calcular la probabilidad posterior de la probabilidad condicional de la variable no observada. (por ejemplo, suponiendo que el ratón está bien desarrollado, ¿cómo se ha desarrollado el águila P(A|D=1))
  3. Valor máximo de probabilidad posterior: Dada alguna evidencia e, calcular el valor máximo de probabilidad de no ser observado. (Igual que arriba, ¿entonces el desarrollo más probable del águila? argmax p(A=a|D=1))

Reducción de variables: un enfoque de inferencia exacta

Métodos de inferencia aproximada: dar rápidamente resultados aproximados. Hay dos categorías principales: la primera categoría es el método basado en el muestreo y el método Monte Carlo de la cadena de Markov. La segunda categoría es el método de inferencia variacional, que encuentra el más cercano a la verdadera distribución posterior como una aproximación.

Aprendizaje de redes bayesianas

  1. Aprendizaje de parámetros: suponiendo que se da la estructura de la red bayesiana, estime el parámetro óptimo o la distribución de probabilidad

    punto estimado. El indicador es la divergencia estadística. Estimación de máxima verosimilitud, equivalente a la divergencia KL.

    Método bayesiano completo: considerar los parámetros del modelo como variables aleatorias globales (previas), aplicar la fórmula bayesiana, estimar la distribución de probabilidad posterior de un parámetro y considerar todos los modelos en promedio

  2. aprendizaje estructurado

Aprendizaje de programación bayesiana

Aprendizaje de muestra pequeña: dadas varias situaciones de datos, cómo aprender un modelo adecuado para completar la predicción

Aprendizaje de programación bayesiana BPL es un modelo bayesiano jerárquico interpretable:

  1. Representación: nivel de símbolo (BPL muestra diferentes unidades básicas para construir subpartes, la relación entre partes, palabras) + nivel de entidad (plantilla dada para escribir paso a paso)

  2. Inferencia: dada una imagen, BPL infiere la distribución de probabilidad posterior de las partes, subpartes y relaciones correspondientes. (Camine al azar desde la esquina superior izquierda, pruebe todas las posibilidades y obtenga un posterior aproximado)

  3. Aprendizaje: dos niveles, aprendizaje tradicional (entrenamiento sobre muchos caracteres diferentes, inferir la distribución posterior de parámetros), aprender a aprender (transferir el aprendizaje de la experiencia previa sobre nuevos datos)

2.2 Aprendizaje profundo bayesiano

Fusión cruzada de aprendizaje bayesiano y aprendizaje profundo

  • Modelo generativo profundo: use la capacidad de ajuste de NN para describir la relación compleja de variables en el modelado de probabilidad y obtenga un modelo de probabilidad más capaz
  • Red neuronal bayesiana: la inferencia bayesiana se usa para describir la incertidumbre del modelo en el aprendizaje profundo, y el peso se cambia a una distribución de probabilidad

modelo generativo profundo

Autocodificador variacional VAE y Red Adversaria Generativa GAN. La generación de los datos ajustados de los dos es inexplicable. Lo interpretable se expresa así por la red bayesiana, y la red se ajusta al resto.

Ejemplo: Graphical-GAN, una red de confrontación de generación de gráficos probabilísticos, puede aprender automáticamente características interpretables sin anotación semántica.

red neuronal bayesiana

abandono, inferencia bayesiana aproximada sobre aprendizaje profundo

La caída de MC, que muestrea diferentes versiones aleatorias de la misma red como una distribución posterior, puede estimar la predicción promedio y también puede estimar la incertidumbre de la predicción.

De Redes Bayesianas a Modelos Causales Interpretables

El modelo causal considera variables fuera del modelo, y la relación de conexión representa la relación causal (dirigida)

Supongo que te gusta

Origin blog.csdn.net/weixin_44546100/article/details/127751640
Recomendado
Clasificación