Notes d'apprentissage automatique traditionnel 6 - modèle d'arbre de régression

avant-propos

  Nous avons présenté le modèle de classification par arbre de décision dans la partie précédente. Si vous ne le connaissez pas, vous pouvez revenir en arrière et l'apprendre. L' apprentissage automatique traditionnel note l'arbre à 4 décisions . En fait, l'arbre de décision peut également être utilisé comme une tâche de régression. Nous l'appelons un arbre de régression. Le noyau est toujours une structure arborescente, mais la méthode de croissance des attributs est différente de l'arbre de décision de classification.

1. Régression de l'arbre de décision

1.1. Idée centrale

  Examinons la structure typique de l'arbre de décision, comme indiqué dans la figure ci-dessous : Pour une introduction plus détaillée à l'arbre de décision, vous pouvez revenir en arrière et l'examiner, donc je ne le répéterai pas ici.
insérez la description de l'image ici
  Examinons d'abord l'idée de base de l'arbre de décision. En ce qui concerne les arbres de régression, la première chose à laquelle nous pensons est l'arbre CART. Le nom complet de l'arbre CART est Classification And Regression Trees, c'est-à-dire des arbres de classification. et les arbres de régression. L'arbre CART a les caractéristiques suivantes :
en supposant que l'arbre de décision est un arbre binaire, les valeurs des caractéristiques des nœuds internes sont oui et non, la branche de droite est la branche avec la valeur oui, et la branche de gauche est la branche avec la valeur no. Un tel arbre de décision équivaut à dichotomiser récursivement chaque caractéristique, à diviser l'espace d'entrée en un nombre fini d'unités et à déterminer la distribution de probabilité prédite sur ces unités, c'est-à-dire à produire la distribution de probabilité conditionnelle dans les conditions d'entrée données. Supposons d'abord qu'il existe un ensemble de données D, et l'idée générale de la construction d'un arbre de régression est la suivante :

  1. Considérez toutes les caractéristiques j sur l'ensemble de données D, traversez toutes les valeurs possibles ou points de segmentation s sous chaque entité et divisez l'ensemble de données D en deux parties D 1 , D 2 D_{1}, D_{2}D1D2
  2. Calculer D 1 , D 2 D_{1}, D_{2} respectivementD1D2La somme des différences au carré, sélectionnez la fonction et le point de partage correspondant à la plus petite différence au carré, et générez deux nœuds enfants, c'est-à-dire divisez les données en deux parties.
  3. Appelez les étapes 1 et 2 de manière récursive pour les deux nœuds enfants ci-dessus jusqu'à ce que la condition d'arrêt soit remplie.

  Une fois l'arbre de régression construit, la division de l'espace d'entrée global est terminée, c'est-à-dire que l'établissement de l'arbre de régression est terminé. L'ensemble de l'espace d'entrée est divisé en plusieurs sous-régions, et la sortie de chaque sous-région est la valeur moyenne de tous les échantillons d'apprentissage de cette région. Regardons deux exemples :
partitionner l'intégralité de l'espace d'entrée en sous-régions :
insérez la description de l'image ici

La sortie de chaque sous-région est la moyenne de tous les échantillons d'apprentissage de la région :
insérez la description de l'image ici
  nous savons que l'arbre de régression divise en fait l'espace d'entrée en unités, et la valeur de sortie de chaque région est la moyenne de toutes les valeurs ponctuelles de la région. région. Mais nous voulons construire l'arbre de régression le plus efficace : la moindre différence entre la valeur prédite et la valeur réelle. Ci-dessous, nous présentons comment l'arbre de régression se développe.

2. Segmentation heuristique et sélection optimale des attributs

2.1. Exemple de modèle de régression

  Prenons le revenu des joueurs de baseball comme exemple pour expliquer le modèle de régression, comme le montre la figure ci-dessous :
insérez la description de l'image ici
où :

  • Le rouge et le jaune indiquent un revenu élevé, le bleu et le vert indiquent un faible revenu
  • L'abscisse indique les années et l'ordonnée indique la performance

Il y a deux caractéristiques au total, les années d'emploi et les performances. Le processus de prise de décision de l'arbre de régression est déterminé par l'arbre de régression généré final, comme illustré dans la figure ci-dessous : le nœud de décision racine correspond aux années de caractéristique, et
insérez la description de l'image ici
  ses le seuil de division est de 4,5, et les échantillons avec des années inférieures à 4,5 Diviser vers la gauche, les échantillons supérieurs ou égaux à 4,5 sont divisés vers la droite ; le deuxième nœud de décision est caractérisé par des hits, son seuil de division est de 117,5, les échantillons avec des hits moins supérieurs à 117,5 sont divisés vers la gauche et les échantillons supérieurs ou égaux à 117,5 sont divisés vers la droite. Un échantillon suit les conditions de prise de décision de l'arbre de décision jusqu'au nœud feuille pour obtenir le salaire prédit. Le salaire prédit a ici un total de 3 valeurs, qui sont 5,11, 6,0 et 6,74.
  Une fois l'arbre de régression construit, la division de l'espace entier est réalisée, comme le montre la figure ci-dessous. Lors de la prédiction, les nouveaux échantillons seront divisés dans la figure suivante R 1 R_{1} selon le processus de prise de décision de l'arbre de régressionR1R 1 R_{1}R1R 1 R_{1}R1Une région R i R_{i} dansRje, et la valeur prédite pour ce nouvel échantillon (dans ce cas, le salaire du joueur de baseball) est sa région. Comme le montre la figure ci-dessous, le plan entier est divisé en 3 parties :
R 1 = X ∣ Années < 4,5 R 2 = X ∣ Années ≥ 4,5 , Coups < 117,5 R 3 = X ∣ Années ≥ 4,5 , Coups ≥ 117,5 \begin {réunis} R 1=X \mid \text { Années }<4.5 \\ R 2=X \mid \text { Années } \geq 4.5, \text { Hits }<117.5 \\ R 3=X \mid \text { Années } \geq 4.5, \text { Hits } \geq 117.5 \end{rassemblés}R 1=X Années <4.5R2 _=X Années 4.5 , Les coups <117,5R3 _=X Années 4.5 , Les coups 117.5
insérez la description de l'image ici

2.2. Méthode de construction de l'arbre de régression

  Le cœur de la construction d'un arbre de régression : méthode de segmentation et sélection d'attributs Supposons d'abord un problème de régression, et le résultat estimé est y ∈ R y \in RyR , le vecteur caractéristique estX = [ x 1 , x 2 , x 3 , … , xp ] X=\left[x_1, x_2, x_3, \ldots, x_p\right]X=[ x1,X2,X3,,Xp] , alors les deux étapes pour construire l'arbre de régression sont :

  1. Commencez par diviser l'espace des caractéristiques X en J régions non superposées X = [ R 1 , R 2 , R 3 , … , R p ] X=\left[R_1,R_2, R_3, \ldots, R_p\right]X=[ R1,R2,R3,,Rp]
  2. RJ R_{J}RJNous donnons le même résultat de prédiction y ~ R j = 1 n ∑ j ∈ R jyj \tilde{y}_{R_{j}}=\frac{1}{n} \sum j \in pour chaque échantillon dansy~Rje=n1jR j yje, où n est RJ R_{J}RJLe nombre total d'échantillons dans .

Grâce à la construction ci-dessus, nous espérons trouver une méthode de division qui minimise RSS R 1 , R 2 , R 3 , . . . RJ R_{1}, R_{2}, R_{3}, ...R_{J}R1R2R3... RJ,RSS表示如下:
RSS = ∑ j = 1 J ∑ je ∈ R j ( yi − y ~ R j ) 2 RSS=\sum_{j=1}^J \sum_{i \in R j}\left(y_i -\tilde{y}_{R_j}\right)^2RSS=j = 1Jje R j( yjey~Rje)2
dont :

  • aay : vecteur d'étiquette formé pour l'étiquette de chaque échantillon d'apprentissage, chaque élément yj y_jdans le vecteuryjeCorrespondant à l'étiquette de chaque échantillon.
  • XXX : une collection de caractéristiques,x 1 , x 2 , … , xp x_1, x_2, \ldots, x_pX1,X2,,XpPour la 1ère fonctionnalité au ppthcaractéristiques p .
  • R 1 , R 2 , R 3 , … , RJ R_1, R_2, R_3, \ldots, R_JR1,R2,R3,,RJ: Chaque zone qui ne se chevauche pas est divisée en l'ensemble de l'espace de caractéristiques (reportez-vous à la figure de droite sur la page précédente).
  • y ~ R j \tilde{y}_{R_j}y~Rje: pour diviser en jjthj régionsR j R_jRjeLa valeur d'étiquette moyenne de l'échantillon, utilisez cette valeur comme valeur prédite de la zone, c'est-à-dire que si un échantillon de test tombe dans la zone pendant le test, la valeur d'étiquette de l'échantillon est prédite comme y ~ R j \tilde{ y
    } _{R_j}y~Rje.
    D'après le processus de calcul ci-dessus, nous pouvons voir que lorsque l'espace des caractéristiques est complexe, la quantité de calcul est très importante. Cela conduit donc à la dichotomie récursive que nous allons introduire ci-dessous.

dichotomie récursive

  L'arbre de régression utilise une méthode récursive descendante. Greedy se réfère ici à chaque division, en ne considérant que l'optimum actuel, sans revenir sur la division précédente. Défini mathématiquement, c'est-à-dire pour sélectionner la dimension (caractéristique) de la scission et le point de scission afin de minimiser le résultat RSS de l'arbre de scission. La formule est la suivante :
R 1 ( j , s ) = { x ∣ xj < s } R 2 ( j , s ) = { X ∣ xj ≥ s } RSS = ∑ xi ∈ R 1 ( j , s ) ( yi - y ~ R 1 ) 2 + ∑ xi ∈ R 2 ( j , s ) ( yi − y ~ R 2 ) 2 \begin{aligned} &R_1(j, s)=\left\{x \mid x_j<s\right\} \\ &R_2(j, s)=\left\{x \mid x_j \geq s\ right\} \\ &R SS=\sum x_i \in R_1(j, s)\left(y_i-\tilde{y}_{R 1}\right)^2+\sum x_i \in R_2 (j, s )\left(y_i-\tilde{y}_{R_2}\right)^2 \end{aligned}R1( j ,s )={ xXje<s }R2( j ,s )={ xXjes }RSS=XjeR1( j ,s )( yjey~R 1)2+XjeR2( j ,s )( yjey~R2)2
  Regardons à nouveau la segmentation récursive, et regardons directement les deux images ci-dessous.L'image de gauche est obtenue par segmentation non récursive, et l'image de droite est la méthode récursive binaire.
insérez la description de l'image ici
  Comme on peut le voir sur la figure ci-dessus, la segmentation récursive peut certainement trouver une meilleure solution, tandis que la segmentation non récursive ne peut pas couvrir de manière exhaustive toutes les situations, ce qui ne peut pas être réalisé de manière algorithmique, et une meilleure solution peut ne pas être obtenue.
  Le processus global de l'arbre de régression est similaire à l'arbre de classification : lors de la ramification, les seuils de division possibles de chaque caractéristique sont épuisés pour trouver la caractéristique de segmentation optimale et le seuil de point de segmentation optimal. La méthode de mesure consiste à minimiser l'erreur carrée. La ramification s'arrête jusqu'à ce qu'une condition de fin prédéfinie (telle que la limite supérieure du nombre de feuilles) soit atteinte.
  Habituellement, lorsqu'il s'agit de problèmes spécifiques, un seul modèle d'arbre de régression a des capacités limitées et peut tomber en surajustement. Nous utilisons souvent l'idée de Boosting dans l'apprentissage intégré pour améliorer l'arbre de régression. Le nouveau modèle obtenu est le Boosting Decision Tree (Boosting Decision Tree) ), de plus, vous pouvez obtenir l'arbre de décision Gradient Boosting (GBDT), puis vous pouvez passer à XGBoost. L'ajustement des résidus à travers plusieurs arbres de régression peut réduire en continu l'écart entre la valeur prédite et la valeur de l'étiquette, de manière à atteindre l'objectif d'une prédiction précise.

Surajustement et régularisation

3.1. Problème de surajustement

  Lorsque la taille de l'arbre est trop petite, le modèle ne fonctionnera pas bien, et si la taille de l'arbre est trop grande, cela entraînera un surajustement, qui est très difficile à contrôler. Par conséquent, les méthodes suivantes pour résoudre le surajustement ont été né.

3.2. La solution au problème du surajustement

3.2.1 Les contraintes contrôlent la prolifération des arbres

  • Limiter la profondeur de l'arbre : arrête la croissance de l'arbre lorsque la profondeur maximale définie est atteinte.
  • Méthode d'erreur de classification : lorsque l'arbre continue de croître et ne peut pas obtenir la réduction d'erreur de classification souhaitée, il s'arrête de croître.
  • Limite minimale du volume de données du nœud feuille : le volume de données d'un nœud feuille est trop petit et l'arborescence cesse de croître.

3.2.2 Taille

  L'inconvénient de la croissance contrainte de l'arbre est qu'il tue d'autres possibilités à l'avance et met fin à la croissance de l'arbre prématurément.On peut aussi attendre que l'arbre pousse et ensuite l'élaguer, c'est ce qu'on appelle la post-taille. algorithme a principalement les aspects suivants : genre :

  • Élagage à erreur réduite (REP, élagage de réduction du taux d'erreur).
  • Pesimistic-Error Pruning (PEP, pessimistic error pruning).
  • Cost-Complexity Pruning (CCP, cost complexity pruning).
  • Élagage basé sur les erreurs (EBP, élagage basé sur les erreurs).

3.2.3 Régularisation

  Pour les arbres de régression, nous ajoutons une mesure de régularisation lors de l'élagage. Considérons le sous-arbre obtenu après élagage comme indiqué ci-dessous, où est le coefficient du terme de régularisation. Lorsqu'il est fixé, le meilleur est le sous-arbre qui rend la sous-valeur de la formule suivante la plus petite.
∑ m = 1 ∣ T ∣ ∑ xi ∈ R m ( yi − y ~ R 2 ) 2 + α ∣ T ∣ \sum_{m=1}^{|T|} \sum_{x_i \in R_m}\left( y_i-\tilde{y}_{R_2}\right)^2+\alpha|T|m = 1TXjeRm( yjey~R2)2+α T

  • ∣ T ∣ |T|T est le nombre de nœuds feuilles dans l'arbre de régression.
  • un \alphaα peut être sélectionné par validation croisée.

La partie sur le principe du modèle de l'arbre de régression est essentiellement introduite, et tout le monde est invité à critiquer et à corriger.

Je suppose que tu aimes

Origine blog.csdn.net/qq_38683460/article/details/127510978
conseillé
Classement