Meta propose un nouveau schéma de réglage fin efficace des paramètres, un seul RNN est nécessaire et l'utilisation du GPU du modèle Transformer est réduite de 84 % !

Récemment, avec le développement continu des modèles ChatGPT et GPT-4 , de grandes sociétés Internet nationales et étrangères ont lancé leurs propres grands modèles linguistiques, tels que la série PaLM de Google, la série LLaMA de MetaAI et certains grands modèles lancés par des entreprises nationales et des universités, telles que Wenxinyiyan de Baidu, ChatGLM de l'Université de Tsinghua et d'autres modèles. Un tout nouveau grand modèle sera publié presque tous les quelques jours, mais pour les chercheurs et les développeurs, tout le monde est peut-être plus préoccupé par les innovations dans la mise en œuvre réelle de la formation, du réglage fin, du raisonnement et du déploiement des grands modèles de base. Cela doit parler de l'architecture de modélisation du langage au bas du grand modèle.De nos jours, l'infrastructure de la plupart des grands modèles utilise encore le Transformer publié sur NeurIPS il y a 6 ans.

Le réglage fin de l'ensemble du modèle Transformer devient de plus en plus coûteux à mesure que la taille du modèle et le nombre de tâches augmentent. Par conséquent, de nombreuses méthodes d'apprentissage par transfert efficace des paramètres (Parameter Efficient Transfer Learning, PETL) ont été proposées. Cet article provient de Meta AI et propose une méthode d'adaptation efficace des paramètres REcurrent ADaption (READ) basée sur l'architecture RNN traditionnelle. Plus précisément, READ n'a besoin d'insérer qu'un petit réseau RNN à côté du transformateur de base pour obtenir un réglage fin efficace des paramètres, et le modèle n'a pas besoin d'être rétropropagé via le transformateur de base. Grâce à une série d'expériences, l'auteur montre que READ peut économiser 56 % de la consommation de mémoire d'entraînement et 84 % de l'utilisation du GPU tout en conservant un effet de réglage fin du modèle de haute qualité.

Lien papier :

https://arxiv.org/abs/2305.15348

Introduction 

Depuis 2018, le taux de croissance de l'échelle des paramètres des grands modèles de langage est près de deux ordres de grandeur plus rapide que le taux de croissance de la mémoire GPU, ce qui rend le seuil d'entrée des grands modèles de plus en plus élevé, et le coût de configuration d'un "four d'alchimie" qui peut contenir de grands modèles est très coûteux. Seules quelques entreprises et institutions bien financées ont la capacité de former et de peaufiner de grands modèles. Afin d'abaisser ce seuil, la méthode PETL est devenue la solution préférée à l'heure actuelle.Par exemple, la méthode Adapter [1] réduit la quantité de paramètres que le modèle doit mettre à jour en insérant de petits modules dans le Transformer. La méthode Soft Prompts [2] assemble les paramètres à petite échelle après que le modèle a entré les plongements pour obtenir un effet similaire. Il y a aussi la méthode Lora [3] qui a reçu une grande attention, qui minimise la quantité de paramètres du modèle grâce à une approximation de rang inférieur , et la méthode BitFit [4] qui n'ajuste les éléments paranoïaques que dans les premières couches du réseau.

On peut voir dans le tableau ci-dessus que grâce à l'optimisation de la méthode PETL, le coût de réglage fin du modèle a été considérablement réduit par rapport à un réglage fin complet. Dans le même temps, READ dans cet article présente des avantages évidents par rapport aux autres méthodes.Cela est dû à la petite structure RNN ajoutée à l'intérieur de READ.Aujourd'hui , avec l'architecture Transformer endémique, le RNN relativement ancien a montré une forte vitalité. Récemment, une équipe open source dominée par la Chine a également publié un grand modèle de langage RWKV [5] basé sur l'architecture RNN, et a fait un slogan "avoir à la fois des poissons et des pattes d'ours" avec Transformer.

2. La méthode de cet article

2.1 Qu'est-ce que LIRE ? 

Le READ proposé dans cet article est principalement composé d'un RNN standard et d'un réseau Joiner L'architecture globale du réseau READ est présentée dans la figure ci-dessous.

2. Le processus d'optimisation du réseau n'implique que le RNN et le réseau à anticipation (FFN), et il n'est pas nécessaire de mettre à jour la couche d'auto-attention. Cela améliore la convivialité globale et l'efficacité de la formation du modèle, et READ peut être plug-and-play dans n'importe quelle structure Transformer.

3. En raison des caractéristiques de réseau récurrentes de READ, l'échelle des paramètres pouvant être entraînés pour le réglage fin du modèle n'augmente pas avec l'augmentation du nombre de couches de réseau fédérateur. La relation entre les deux se développe de manière sublinéaire.

4. READ peut être calculé sans modifier les résultats intermédiaires du réseau fédérateur Transformer.

2.2 Comment fonctionne READ ? 

3. Résultats expérimentaux 

Les expériences de cet article sont réalisées dans plusieurs tâches de langage naturel du benchmark GLUE. L' architecture de base de Transformer utilisée est le modèle T5. Le modèle RNN utilise également une variété de structures de réseaux de neurones cycliques, notamment les RNN, LSTM et GRU d'origine.

3.1 La méthode READ surpasse les autres méthodes avec une consommation d'énergie nettement inférieure 

La figure ci-dessous montre la comparaison des performances entre la méthode READ et d'autres méthodes PETL dans le cas d'une consommation d'énergie réduite du GPU. Dans la moitié gauche de la figure ci-dessous, nous pouvons voir que par rapport à un réglage complet, READ peut réduire l'utilisation du GPU d'environ 90 % et l'utilisation de la mémoire GPU de 56 %. Dans le même temps, la précision de prédiction du modèle reste la même qu'auparavant .

Bien que les méthodes PETL telles que LoRA, BitFit ou Adapter puissent également réduire considérablement le nombre de paramètres pouvant être entraînés, elles ne réduisent pas le coût de calcul du réglage fin, qui est le principal objectif d'optimisation de PETL. Dans la moitié droite de la figure ci-dessus, nous pouvons voir que la mémoire vidéo utilisée par READ dans le processus d'apprentissage est très petite. La figure montre principalement le compromis de performances et d'espace entre les performances du modèle et l'utilisation de la mémoire vidéo. Par rapport à toutes les autres méthodes de base, READ atteint au moins 25 % d'optimisation de la mémoire d'entraînement, tout en obtenant de meilleures performances de prédiction des tâches en aval.

3.2 READ a une forte évolutivité

Comme le montre la figure ci-dessous, par rapport aux autres méthodes PETL, le nombre de paramètres apprenables de READ augmente très lentement. À mesure que la taille du modèle de dorsale T5 augmente, le nombre de paramètres pour READ affiche une tendance log-linéaire. Cela est dû à la nature du réseau récurrent de READ, qui rend son échelle de paramètres de réglage fin indépendante du nombre de couches de réseau fédérateur, ce qui rend READ plus adapté au réglage fin des modèles de transformateurs à très grande échelle dans des implémentations d'ingénierie spécifiques.

3.3 READ a également une grande amélioration de la vitesse de raisonnement du modèle et de l'utilisation de la mémoire

Comme le montre la moitié gauche de la figure ci-dessous, READ utilise moins de mémoire dans la phase d'inférence du modèle que les autres méthodes PETL, et la vitesse d'inférence est également maintenue à un niveau élevé. De plus, afin d'évaluer de manière plus complète l'utilisation de la mémoire d'inférence de READ, l'auteur montre le changement d'utilisation de la mémoire d'inférence à mesure que la taille du réseau fédérateur du modèle augmente dans la moitié droite de la figure ci-dessous. Par rapport à la méthode de réglage fin complet, l'augmentation de l'utilisation de la mémoire d'inférence de READ est presque négligeable .

4. Résumé 

Cet article propose une nouvelle méthode efficace d'ajustement des paramètres pour les modèles de transformateurs à grande échelle , appelée REcurrent ADaption (READ). La méthode READ est non seulement légère, mais également comparable aux méthodes traditionnelles de réglage fin en termes de précision. En introduisant la forme du module RNN + Joiner, READ n'a pas besoin de passer par le modèle de transformateur de dorsale lors du réglage fin du réseau , ce qui réduit considérablement l'utilisation du GPU pour le réglage fin du modèle et peut obtenir un effet d'économie allant jusqu'à 84 %. De plus, READ présente également une forte évolutivité et peut être plug-and-play sur presque toutes les structures Transformer sans tenir compte de la modification de la couche complexe d'auto-attention dans le modèle d'origine. Dans le même temps, par rapport à la méthode de réglage fin complet, READ peut réduire l'utilisation de la mémoire de formation de 56 %, ce qui réduit encore le seuil permettant aux ingénieurs d'apprentissage en profondeur d'affiner les grands modèles.

référence 

[1] Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attarian et Sylvain Gelly. Apprentissage par transfert efficace des paramètres pour la PNL. Dans Conférence internationale sur l'apprentissage automatique, pages 2790–2799. PMLR, 2019

[2] Brian Lester, Rami Al-Rfou et Noah Constant. La puissance de l'échelle pour un réglage rapide efficace des paramètres. prétirage arXiv arXiv:2104.08691, 2021.

[3] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang et Weizhu Chen. Lora : Adaptation de rang inférieur de grands modèles de langage. arXiv preprint arXiv : 2106.09685, 2021

[4] Elad Ben Zaken, Shauli Ravfogel et Yoav Goldberg. Bitfit : ajustement simple et efficace des paramètres pour les modèles de langage masqué basés sur des transformateurs, 2022.

[5] Peng B, Alcaide E, Anthony Q, et al. RWKV : réinventer les RNN pour l'ère des transformateurs[J]. arXiv preprint arXiv:2305.13048, 2023.

Auteur : seven_

Je suppose que tu aimes

Origine blog.csdn.net/hanseywho/article/details/131688340
conseillé
Classement