Machine Learning: regresión logística y máxima entropía

I. Resumen

(1) Modelo de máxima entropía

El modelo de máxima entropía es un criterio de aprendizaje para los modelos de probabilidad, que se puede aplicar a varios modelos de probabilidad.

Tome el modelo de distribución de probabilidad condicional como ejemplo:

Modelo:

También es una estrategia de optimización, resolviendo max Pw y obteniendo el parámetro w

Estrategia:

Problema de optimización con restricciones:

Problema de optimización en forma dual.

En el mismo modelo, encuentre el Pw máximo para obtener el parámetro w.

(2) Regresión logística

Modelo de regresión logística binomial:

Modelo de regresión logística multinomial:

mejoramiento:

Resolver el valor máximo estimado de la siguiente función de verosimilitud para obtener el parámetro w

Con w se utiliza el modelo para calcular los valores de probabilidad de las dos categorías respectivamente, y se obtienen los resultados de la clasificación.

2. Contenido principal

(1) Entropía máxima

El principio de máxima entropía es un criterio para el aprendizaje de modelos probabilísticos. El principio de máxima entropía cree que cuando se aprende un modelo de probabilidad, entre todos los modelos de probabilidad posibles (distribuciones), el modelo con la mayor entropía es el mejor modelo. Las restricciones generalmente se usan para determinar el conjunto de modelos de probabilidad, por lo que el principio de máxima entropía también se puede expresar seleccionando el modelo con la mayor entropía entre el conjunto de modelos que satisfacen las restricciones.

//================== Suplemento =====================//

Intuitivamente, el principio de máxima entropía cree que el modelo de probabilidad a seleccionar primero debe satisfacer los hechos existentes, es decir, las restricciones. A falta de más información, esas partes inciertas lo establecen como " igualmente probable " , es decir, la probabilidad es igual, por lo que la entropía es la mayor . El principio de máxima entropía expresa igual posibilidad, es decir, igual probabilidad, a través de la maximización de la entropía. La " igualdad de probabilidades " no es fácil de operar, pero la entropía es un índice numérico que se puede optimizar.

Por tanto, la entropía es un indicador cuantitativo para medir la probabilidad de igualdad, cuanto mayor es la entropía, mayor es el desorden y más información contiene.

La figura 6.2 proporciona una interpretación geométrica de la selección del modelo probabilístico utilizando el principio de máxima entropía. El conjunto de modelos de probabilidad P se puede representar mediante un simplex en el espacio euclidiano, como el triángulo (2-simplex) en la figura de la izquierda . Un punto representa un modelo y todo el símplex representa una colección de modelos. Una línea recta en la figura de la derecha corresponde a una restricción y la intersección de las líneas corresponde al conjunto de modelos que satisfacen todas las restricciones. En general, todavía hay infinitos modelos de este tipo. El propósito del aprendizaje es seleccionar el modelo óptimo en el conjunto de modelos posibles, y el principio de máxima entropía proporciona un criterio para la selección del modelo óptimo.

//=====================================//

El principio de máxima entropía se puede aplicar a varios modelos de probabilidad.Aquí tomamos el modelo de probabilidad condicional como ejemplo para explicar el proceso de solución.

Restricciones:

La diferencia entre el modelo de máxima entropía y el ingenuo Bayes es que contiene múltiples restricciones.

(1) A continuación se presentan las restricciones, que están representadas por la función característica f(x,y).

Un modelo puede contener varias restricciones de este tipo.

(2) Construya otra restricción lógica.

Porque si la ley se puede obtener del conjunto de entrenamiento, entonces existe una fórmula: P(X,Y) = P(Y|X)P(X), por lo que existe la ecuación anterior, que también es una de las restricciones estar satisfecho.

Entre ellos, P(x) y P(X,Y) son los resultados conocidos obtenidos del conjunto de entrenamiento, y P(Y|X) es el resultado a obtener.

En comparación con la clasificación bayesiana ingenua, se trata de resumir la distribución empírica de la distribución de probabilidad conjunta y la distribución empírica de la distribución de probabilidad marginal del conjunto de datos de entrenamiento. La distribución de probabilidad condicional se puede obtener usando la fórmula P(Y|X) = . La fórmula de cálculo es la anterior.

Este es el método de cálculo del modelo sin restricciones. Si se incluyen restricciones, se utiliza un método más general: el modelo de máxima entropía.

//================ Conocimientos preliminares ==================//

La fórmula para calcular la entropía es:

La fórmula para calcular la entropía condicional es:

//=======================================//

Cree una estrategia de optimización:

Ahora que tenemos la fórmula de cálculo y las restricciones de la entropía condicional anterior, nuestro objetivo es encontrar la entropía máxima mientras se satisfacen las restricciones, por lo que hay: