Algorithme d'apprentissage Perceptron pour l'apprentissage en profondeur

1. Modèle Perceptron

Le perceptron est un modèle de classification binaire relativement simple, mais de la simplicité à la complexité, le perceptron est à la base des réseaux de neurones et des machines à vecteurs de support. Un perceptron est conçu pour apprendre un hyperplan de séparation linéaire qui divise les données d'entrée en +1/-1, donc un perceptron est un modèle linéaire.
De l'espace d'entrée à l'espace de sortie à la fonction : où x est le vecteur caractéristique de l'instance
insérez la description de l'image ici
est appelé le perceptron, où w et b sont les paramètres du modèle de perceptron, w est appelé poids (poids) et b est appelé biais (biais), où la fonction de signe est Fonction de signe :
insérez la description de l'image ici
insérez la description de l'image ici
L'équation linéaire wx+b=0 formée par w et b est un hyperplan extrêmement séparé linéairement. L'utilisation de ce modèle perceptron consiste à trouver une bonne ligne droite pour diviser l'ensemble de données.

Deuxièmement, la stratégie d'apprentissage du perceptron

Tout d'abord, assurez-vous que l'ensemble de données est linéairement séparable. Qu'est-ce que linéairement séparable ? Linéairement séparable signifie qu'une fonction linéaire peut être utilisée pour séparer deux types d'échantillons, tels que des lignes droites dans un espace à deux dimensions, des plans dans un espace à trois dimensions. espace et espaces de grande dimension fonction linéaire de . Par exemple, dans un espace à deux dimensions, il y a des boules rouges et des boules vertes, et une ligne droite peut les séparer, ce qui signifie que cet ensemble de données est linéairement séparable et étendu à un plan à trois dimensions. couper et diviser les deux en deux parties, il s'agit alors d'un ensemble de données séparable linéairement en 3D.

Prenons l'exemple d'un plan à deux dimensions, comment trouver un hyperplan (droite) ?

  1. Une droite est une bonne droite si elle ne manque aucun point.
  2. Le modèle doit essayer de trouver une bonne ligne droite.
  3. S'il n'y a pas de bonne droite, trouvez une bonne droite parmi les mauvaises droites.
  4. La façon de juger à quel point la ligne droite est mauvaise : additionnez les distances entre les mauvais points et la ligne droite.

Ensuite, lorsque nous considérons la somme de cette distance, il y aura deux types de distance, l'une est appelée distance fonctionnelle et l'autre est appelée distance géométrique. Explication de l'auteur de Zhihu Jason Gu

référence
Parce que si la fonction distance est agrandie ou réduite en même temps, la distance changera en conséquence, mais l'utilisation de la distance géométrique résoudra ce problème, ||w|| est appelée la norme L2 de w.
||w|| = racine (sommation wi^2 de 1 à n)

insérez la description de l'image ici

Évidemment, la fonction de perte L(w,b) n'est pas négative. S'il n'y a pas de point d'erreur de classification, alors la valeur de la fonction de perte est 0. Moins il y a de points d'erreur de classification, plus le point d'erreur de classification est proche de l'hyperplan, plus la perte est faible. valeur de la fonction , la stratégie d'apprentissage du perceptron consiste donc à sélectionner le paramètre de modèle w,b avec la plus petite fonction de perte dans l'espace des hypothèses comme modèle de perceptron.

3. Algorithme d'apprentissage Perceptron

Maintenant que la fonction de perte du perceptron est connue, le problème d'apprentissage du perceptron est transformé en un problème d'optimisation de résolution de la fonction de perte, et la méthode d'optimisation est la méthode de descente de gradient stochastique. x=x-nf`(x)

Plus précisément, nous choisissons arbitrairement un hyperplan, noté par les paramètres w0,b0. On trouve ensuite le gradient pour w et b. On sait que le gradient représente la direction dans laquelle la fonction descend le plus rapidement. Ensuite on descend d'une certaine distance le long de cette direction, et on peut rapidement approcher la valeur minimale de la fonction.

La dérivée partielle de la fonction de perte pour w et la dérivée partielle pour b obtiendront la formule suivante :
la formule pour chaque mise à jour du gradient est x=x-nf`(x)

insérez la description de l'image ici
La forme originale de l'algorithme du perceptron est présentée ci-dessous :
insérez la description de l'image ici

4. La forme duale de l'algorithme d'apprentissage du perceptron

La forme duale est en fait optimisée pour le calcul répété de yixi, exprimant w et b comme une combinaison linéaire d'instances xi et yi.En
insérez la description de l'image ici
supposant n fois de modification, l'incrément est aiyixi et aiyi, où ai=nη. (0<η<=1)
w = w0+a1y1x1+a2y2x2+…anynxn
b = b0+a1y1+a2y2+…anyn
w0, b0 est initialisé à 0, alors
insérez la description de l'image ici

Amenez w dans le modèle perceptron, le modèle perceptron à ce moment est
insérez la description de l'image ici

Pour ai=niη, ni est le nombre de fois que le point (xi, yi) est mal classé, donc chaque incrément de ai est η

insérez la description de l'image ici
Par conséquent, l'algorithme à double forme du perceptron est :
insérez la description de l'image ici

5. Exemple de la forme duale de l'algorithme d'apprentissage du perceptron

insérez la description de l'image ici

Je suppose que tu aimes

Origine blog.csdn.net/qq_40745994/article/details/127357714
conseillé
Classement