[Notes de lecture papier] Repenser la valeur de l'élagage du réseau

Adresse papier: https://arxiv.org/abs/1810.05270

Résumé papier

  L'idée centrale de l'article est en fait une phrase: une fois le modèle de compression obtenu via l'algorithme Prune, les poids du grand réseau sont utilisés pour le réglage fin, il est préférable d'initialiser directement le modèle de compression d'entraînement de manière aléatoire. Mais il convient de noter que le modèle de compression d'entraînement à l'initialisation aléatoire nécessite plus d'époques que le grand modèle d'apprentissage afin d'obtenir de meilleurs résultats.

Abstrait

  L'auteur a obtenu trois observations et conclusions grâce à des tests d'élagage sur plusieurs réseaux et ensembles de données:

  1. S'il existe un certain modèle de «compression», la formation d'un grand réseau n'est pas nécessaire;
  2. Dans l'algorithme d'élagage, les poids que nous considérons comme "importants" ne sont en fait pas aussi utiles pour les petits modèles recadrés;
  3. Pour le petit modèle compressé final, l'architecture de réseau obtenue par l'algorithme d'élagage est plus importante que le poids «important» obtenu par l'élagage.

  Et tirez une conclusion finale: pour l'algorithme d'élagage SOT, l'utilisation du poids de l'élagage pour affiner ne peut obtenir que des résultats similaires ou pires; pour le modèle de réseau spécifique obtenu par l'algorithme d'élagage, il peut être directement initialisé de manière aléatoire Entraînement sans aller par le biais du pipeline de personnalisation traditionnel (formation de grands réseaux, découpage de poids, mise au point de petits réseaux).

  Dans le même temps, l'auteur a comparé l'hypothèse des billets de loterie et a constaté que l'utilisation de l'initialisation dite du taux d'apprentissage optimal «loterie gagnante» ne donne pas nécessairement de meilleurs résultats avec une initialisation aléatoire.

introduction

  L'algorithme d'élagage traditionnel a trois canaux: (1) la formation d'un grand modèle; (2) la personnalisation d'un grand modèle formé en fonction d'un certain indice; (3) la personnalisation fine du modèle pour obtenir la perte de performance due à l'élagage;
  dans le pruneau traditionnel Dans le concept, il existe deux "connaissances générales": (1) Il est nécessaire de former un grand modèle, qui peut être coupé du grand modèle sans perte. Une série de travaux estime qu'il vaut mieux passer d'un grand modèle à un petit modèle que de former directement un petit modèle; (2) Les poids et l'architecture du réseau sont tous deux importants. Par conséquent, l'algorithme de recadrage choisira principalement un réglage fin au lieu de le recycler.
  Cet article propose que les points ci - dessus ne sont pas importants pour la personnalisation structurée . Pour un petit réseau qui est rogné uniformément (en utilisant un pourcentage et en rognant le pourcentage de canaux sur chaque couche), il est également bon d'initialiser aléatoirement l'effet de réapprentissage; pour un petit réseau qui utilise l'algorithme Prune pour obtenir automatiquement le modèle structure, un plus grand réseau est encore nécessaire, Enfin, il est préférable d'initialiser la formation au hasard.
  Mais pour les cultures non structurées (coefficient de pondération, etc.), l'entraînement à partir de zéro ne permet pas d'obtenir de meilleurs résultats.

  Dans le même temps, l'auteur estime que le modèle coupé par l'algorithme d'élagage peut fournir des conseils de conception pour la conception d'une architecture de réseau efficace.

  (En dehors du contenu de l'article ) Parmi les technologies associées, Zhu & Gupta (2018) ont proposé qu'un réseau à faible densité (modèle à faible densité) ne puisse pas atteindre la même empreinte mémoire qu'un modèle à grande densité (modèle à grande densité). La même précision. Reflète l'importance du pruneau.

Expérience de thèse

  Scratch-E , entraîne tous les petits modèles de pruneaux en utilisant les mêmes époques; Scratch-B , utilise le même budget de calcul, c'est-à-dire que les petits modèles utilisent plus d'époques pour s'entraîner pour assurer la même quantité de calculs d'entraînement.

Taille de structure prédéfinie

  Autrement dit, la méthode de recadrage prédéfinie, selon un certain indice, rogne le canal de la même proportion dans chaque couche.

  Dans les expériences des trois méthodes de recadrage prédéfinies, les résultats de Scratch sont meilleurs que des ajustements précis.

   L 1 L_1 L1-Élagage de filtre de base normal , dans chaque couche, détermine le plus petit pourcentage L 1 L_1L1- les filtres normaux seront coupés. Les résultats sont présentés dans la figure suivante: Les résultats basés sur Scratch ont au moins le même effet que le réglage fin; les résultats basés sur Scratch-B sont un peu meilleurs que le réglage fin.

  ThiNet coupe avidement le canal qui a le moins d'impact sur la valeur d'activation de la couche suivante. Le résultat montre: Srcath-B est meilleur que le réglage fin. Pour le modèle VGG-Tiny, Scratch-E ne fonctionne pas bien, peut-être parce qu'il y a trop de cultures et que Scratch-E n'obtient pas suffisamment de calculs d'entraînement. (Les nombres dans le tableau représentent l'écart avec le modèle désaccordé)

  La reconstruction d'entités basée sur la régression réduit le canal qui minimise l'erreur de reconstruction de la couche suivante des cartes d'entités. Elle utilise la régression LASSO pour résoudre la méthode d'optimisation. Les résultats montrent que:

Taille structurée automatique

  La méthode de découpage automatique de la structure consiste à obtenir la structure du réseau via l'algorithme d'élagage.

  Network Slimming utilise le facteur d'échelle de la couche BN clairsemée L1 pour obtenir des comparaisons de canaux entre les couches afin de générer un élagage par canal. Les résultats ont montré que dans la plupart des expériences, Scratch-B était meilleur que le réglage fin; Scratch-E était légèrement pire, mais toujours dans l'écart.

  Sélection de structure clairsemée . En plus des canaux, les objets de prune peuvent également être des blocs ResNet ou des groupes ResNeXt. Les résultats montrent que:

Couture non structurée

  Lorsque le taux de coupe est élevé (95%), Scratch-E est à une certaine distance du réglage fin, et Scratch-B est au moins le même que le réglage fin.

La personnalisation du réseau peut être utilisée comme moyen de recherche de la structure du réseau

  L'auteur a prouvé par des expériences qu'en utilisant la même stratégie d'entraînement, le réseau obtenu grâce à l'élagage peut atteindre la même précision que le réseau avec un pourcentage unifié de pruneau, et il peut réduire la quantité de paramètres d'au moins 5 fois .

  Cependant, dans certains modèles, l'algorithme d'élagage a également une situation où le réseau obtenu par l'algorithme d'élagage n'est pas meilleur que le réseau obtenu par l'élagage unifié. Cela se produit davantage dans ces structures sur ResNets et DenseNet.La parcimonie de chaque couche de ces structures est quelque peu similaire au pourcentage uniforme d'élagage. C'est peut-être la raison pour laquelle les algorithmes unifiés d'élagage et d'élagage fonctionnent de la même manière. (En regardant l'ensemble de données et les tâches, l'utilisation personnelle de la méthode d'amincissement du réseau dans la détection de pose, l'effet est meilleur que le pruneau unifié)

Obtenir des conseils de conception de modèle à partir de la structure du réseau obtenue par prune

  Dans la figure ci-dessous, la taille guidée est la valeur moyenne du canal à chaque étape (carte des caractéristiques de la même taille) du moel de pruneau comme base pour l'établissement du modèle; La taille guidée transférée est sur un autre réseau VGG-16 sur un autre ensemble de données CIFAR -10 Le guide du modèle de taille guidée obtenu est placé sur le modèle de VGG-19 sur CIFAR-100.
  La gauche de l'image ci-dessous est un recadrage structuré, et la droite de l'image ci-dessous est un recadrage non structuré. Les résultats montrent que même la taille guidée transformée est meilleure que le recadrage uniforme, ce qui montre que nous pouvons obtenir un modèle efficace sans entraîner un grand modèle, mais nous pouvons également l'obtenir grâce à un modèle de conception transféré.

Expérience d'hypothèse de loterie

  Conclusion: En ce qui concerne l'élagage structuré, que l'on utilise un grand lr ou un petit lr, l'initialisation du "ticket de loterie gagnant" n'est pas meilleure que l'initialisation aléatoire; sur l'élagage non structuré, les avantages de l'initialisation du "ticket de loterie gagnant" n'existent que dans On the small lr, mais la précision n'est pas aussi précise que la grande formation lr.

  Taille non structurée : "ticket de loterie gagnant" est uniquement en lr = 0,01 lr = 0,01l r=0 . 0 1 recettes Shi, mais inférieure àlr = 0,1 lr = 0,1l r=0 . 1 pire.

  Élagage structuré : "Gagner des billets de loterie" n'aura pas de rendements plus élevés que l'initialisation aléatoire.

  Le ticket de loterie gagnant ne peut pas utiliser un taux d'apprentissage élevé sur ResNet18 et VGG. Lorsque le taux d'apprentissage est faible, l'initialisation d'origine est assistée, car lorsque le lr est petit, le modèle appris n'est pas loin de l'initialisation, ce qui est similaire.

Je suppose que tu aimes

Origine blog.csdn.net/qq_19784349/article/details/107202447
conseillé
Classement