Apprentissage automatique : régression logistique et entropie maximale

I. Aperçu

(1) Modèle d'entropie maximale

Le modèle d'entropie maximale est un critère d'apprentissage des modèles probabilistes, qui peut être appliqué à divers modèles probabilistes.

Prenons le modèle de distribution de probabilité conditionnelle comme exemple :

Modèle:

C'est aussi une stratégie d'optimisation, en résolvant max Pw, et en obtenant le paramètre w 

Stratégie:

Problème d'optimisation contrainte :

Problème d'optimisation sous forme duale.

Dans le même modèle, trouvez le Pw max pour obtenir le paramètre w.

 (2) Régression logistique

Modèle de régression logistique binomiale :

Modèle de régression logistique multinomiale : 

optimisation:

Résolvez la valeur maximale estimée de la fonction de vraisemblance suivante pour obtenir le paramètre w

Avec w, le modèle est utilisé pour calculer les valeurs de probabilité des deux catégories respectivement, et les résultats de la classification sont obtenus. 

2. Contenu principal

(1) Entropie maximale

Le principe d'entropie maximale est un critère d'apprentissage de modèle probabiliste. Le principe d'entropie maximale considère que lors de l'apprentissage d'un modèle de probabilité, parmi tous les modèles de probabilité possibles (distributions), le modèle avec la plus grande entropie est le meilleur modèle. Les contraintes sont généralement utilisées pour déterminer l'ensemble de modèles de probabilité, de sorte que le principe d'entropie maximale peut également être exprimé en sélectionnant le modèle avec la plus grande entropie parmi l'ensemble de modèles qui satisfont aux contraintes.

//================== Supplément =====================//

Intuitivement, le principe d'entropie maximale considère que le modèle de probabilité à sélectionner doit d'abord satisfaire les faits existants, c'est-à-dire les contraintes. En l'absence de plus d'informations, ces parties incertaines le définissent comme " également probable " , c'est-à-dire que la probabilité est égale, donc l'entropie est la plus grande . Le principe d'entropie maximale exprime une possibilité égale, c'est-à-dire une probabilité égale, par la maximisation de l'entropie. " L'égalité des probabilités " n'est pas facile à exploiter, mais l'entropie est un indice numérique qui peut être optimisé. 

Par conséquent, l'entropie est un indicateur quantitatif pour mesurer la probabilité d'égalité.Plus l'entropie est grande, plus le désordre est important et plus il contient d'informations.

La figure 6.2 fournit une interprétation géométrique de la sélection de modèles probabilistes en utilisant le principe d'entropie maximale. L'ensemble de modèles de probabilité P peut être représenté par un simplexe dans l'espace euclidien, tel que le triangle ( 2 - simplexe ) dans la figure de gauche. Un point représente un modèle et le simplexe entier représente une collection de modèles. Une ligne droite sur la figure de droite correspond à une contrainte, et l'intersection des lignes correspond à l'ensemble des modèles qui satisfont toutes les contraintes. En général, il existe encore une infinité de modèles de ce type. Le but de l'apprentissage est de sélectionner le modèle optimal dans l'ensemble de modèles possibles, et le principe d'entropie maximale donne un critère de sélection de modèle optimal.

//=====================================// 

Le principe d'entropie maximale peut s'appliquer à divers modèles de probabilité. Ici, nous prenons le modèle de probabilité conditionnelle comme exemple pour expliquer le processus de résolution.

 Restrictions :

La différence entre le modèle d'entropie maximale et le Bayes naïf est qu'il contient plusieurs contraintes.

(1) Les contraintes sont introduites ci-dessous, qui sont représentées par la fonction caractéristique f(x,y).

Un modèle peut contenir plusieurs de ces contraintes. 

(2) Construire une autre contrainte logique.

 

Parce que si la loi peut être obtenue à partir de l'ensemble d'apprentissage, alors il y a une formule : P(X,Y) = P(Y|X)P(X), donc il y a l'équation ci-dessus, qui est aussi l'une des contraintes être satisfait.

Parmi eux, P(x) et P(X,Y) sont les résultats connus obtenus à partir de l'ensemble d'apprentissage, et P(Y|X) est le résultat à obtenir.

Par rapport à la classification bayésienne naïve, il s'agit de résumer la distribution empirique de la distribution de probabilité conjointe et la distribution empirique de la distribution de probabilité marginale à partir de l'ensemble de données d'apprentissage. La distribution de probabilité conditionnelle peut être obtenue en utilisant la formule P(Y|X) =  . La formule de calcul est comme ci-dessus.

 

C'est la méthode de calcul du modèle sans contraintes. Si des contraintes sont incluses, une méthode plus générale est utilisée : le modèle d'entropie maximale.

 

//================ Connaissances préliminaires ==================//

La formule pour calculer l'entropie est :

La formule pour calculer l'entropie conditionnelle est : 

//=======================================// 

Construire une stratégie d'optimisation :

Maintenant que nous avons la formule de calcul et les contraintes de l'entropie conditionnelle ci-dessus, notre objectif est de trouver l'entropie maximale tout en satisfaisant les contraintes, il y a donc :

 Une petite conversion a:

La solution au problème contraint ci-dessus est la solution du modèle d'entropie maximale. 

Lors de la résolution, les problèmes contraints ci-dessus peuvent être transformés en problèmes non contraints.

 

 

Le problème de minimisation interne consiste à calculer d'abord la dérivée partielle de P(y|x), et le résultat est seulement w 

 

 

F: 

F: 

Alors il y a: 

 Le w obtenu en le maximisant est le paramètre du modèle. Obtenez également la probabilité conditionnelle P(y|x)

(2) Régression logistique

Modèle:

Stratégie: 

 

//==================== Supplément ===================// 

 //=======================================//

optimisation:

Utilisation de l'estimation du maximum de vraisemblance

 

 Régression logistique multinomiale

  • Algorithme : méthode de Newton couramment utilisée, méthode de descente de gradient, méthode de mise à l'échelle itérative améliorée

 

Je suppose que tu aimes

Origine blog.csdn.net/stephon_100/article/details/125242834
conseillé
Classement