Comment les DSI gèrent la pénurie de GPU à l'ère de l'IA

Les DSI peuvent atténuer les pénuries de puces en adoptant une mentalité axée sur le modèle, en optimisant l'utilisation et en utilisant stratégiquement l'équilibrage de charge.

Traduit de Comment les DSI peuvent lutter contre la pauvreté des GPU à l'ère de l'IA , auteur Liam Crilly.

La ruée vers l’or de l’ère de l’intelligence artificielle est arrivée, mais pour de nombreuses entreprises, la pioche est en rupture de stock. Alors que la demande en intelligence artificielle augmente, un phénomène connu sous le nom de « pénurie de GPU » afflige les DSI, dépassant la capacité de construire des centres de données et, plus important encore, les puces nécessaires pour les alimenter.

En termes simples, la rareté des GPU signifie que les organisations qui cherchent à utiliser des GPU pour le calcul de l’IA ne peuvent tout simplement pas acheter de capacité sur ces puissants systèmes de traitement parallèle, qui constituent le moyen le plus efficace d’exécuter de nombreux types d’apprentissage automatique.

Cette pénurie découle d’une tempête parfaite d’une tempête parfaite. Une pénurie mondiale de puces d'unités de traitement graphique puissantes a conduit les startups à lever des fonds spécifiquement pour acheter des GPU - une stratégie folle si l'on considère que des dépenses en capital massives avant la génération de revenus sont exactement le problème que le cloud computing résout. Il y a ensuite les demandes croissantes liées aux charges de travail liées à l’intelligence artificielle.

Alors que de plus en plus d'entreprises cherchent à tirer parti des services d'IA tels qu'OpenAI et Google ou à exploiter les modèles et chaînes d'outils d'IA dans le cloud, elles exercent une pression croissante sur les prix des GPU, ce qui rend les GPU encore plus hors de portée des startups et d'autres entreprises mal desservies. l'organisation peut se le permettre.

La pénurie de GPU va et vient tout au long de la chaîne d’approvisionnement et dans la ceinture d’outils des constructeurs d’IA. Les équipements de construction de centres de données sont confrontés à un retard de plusieurs années concernant les composants essentiels à la demande, tels que les générateurs et les transformateurs de secours. Même trouver le bon emplacement avec un bien immobilier bon marché, une électricité bon marché et abondante et des connexions rapides à l’Internet mondial est devenu plus intimidant.

Ensuite, il y a le problème des jetons manquants. Les usines de fabrication de semi-conducteurs ont du mal à suivre le rythme, et leurs efforts pour construire rapidement de nouvelles usines ne porteront leurs fruits qu’au bout de nombreuses années.

Pendant ce temps, les fournisseurs de cloud hyperscale et les grandes entreprises engloutissent des fournitures limitées de production de GPU, provoquant une montée en flèche des prix. Pour de nombreuses entreprises, notamment celles qui ne disposent pas de budgets illimités, la difficulté d’ accéder aux GPU dans le cloud pour les applications d’IA devient un risque commercial important.

Cependant, les DSI intelligents peuvent atténuer la folie des GPU en prenant des mesures de bon sens pour réduire les demandes en ressources liées à l’exécution de l’IA d’entreprise.

Utiliser des modèles parcimonieux et des inférences

Tout comme un voyageur ingénieux qui apprend à voyager léger, les data scientists peuvent obtenir des résultats étonnants en utilisant des modèles d'IA plus petits et plus efficaces. Par exemple, le modèle Phi-2 de Microsoft, formé à partir de manuels et de données de très haute qualité, est compact et économe en énergie, nécessitant moins de calculs pour le réglage et le raisonnement.

Des techniques plus récentes telles que la quantification et l’élagage permettent aux chercheurs de réduire les modèles géants sans sacrifier la précision. Des frameworks comme TensorFlow Lite sont spécialement conçus pour déployer ces modèles allégés sur des appareils de pointe, et des startups comme Hugging Face démocratisent l'accès à des modèles efficaces et pré-entraînés. L'équipe responsable du framework PyTorch crée également de nouvelles façons de former efficacement des modèles avec moins de données et de frais généraux.

Optimiser tout

Avec du temps GPU à des prix stratosphériques, l’optimisation des charges de travail d’IA peut être rentable rapidement et efficacement. Les équipes d’ingénierie IA et MLOps doivent analyser les performances de manière proactive et fréquente pour identifier les goulots d’étranglement. Cela peut impliquer d'évaluer différentes configurations (taille du lot, nombre de GPU) pour trouver les paramètres les plus efficaces qui fonctionnent le mieux pour votre tâche spécifique, car ce n'est pas toujours simple.

Les équipes avisées combineront et ajusteront la précision des données (FP16, FP32, etc.) pendant la formation pour réduire l'utilisation de la mémoire et exécuter des lots de plus grande taille. La gestion de l'allocation de mémoire et du mouvement des données, à l'aide de techniques telles que la prélecture des données et le transfert de données finement chronométré pour suivre de près la disponibilité des calculs, peut s'avérer utile.

Il est essentiel de trouver la taille de lot idéale pour vos tâches d’IA. Des lots de taille plus grande permettent une meilleure utilisation du GPU, mais une taille de lot trop grande peut entraîner des erreurs de mémoire insuffisante. Expérimentez pour trouver le point idéal. Si vous disposez d'un GPU plus grand ou si vous disposez d'une grande capacité GPU réservée, assurez-vous d'essayer un logiciel de virtualisation GPU. Cela vous permet de réutiliser les calculs précieux et rares nécessaires à la formation d'un modèle ou d'effectuer des ajustements plus importants pour répondre à l'inférence de modèle plus générale requise pour le fonctionnement des applications d'IA.

Enfin, si possible, déployez sur des conteneurs prenant en charge la mise à l'échelle automatique pour ajuster dynamiquement le nombre de GPU alloués à la charge de travail en fonction de la demande en temps réel. Cela permet d’éviter le surprovisionnement tout en garantissant que des ressources adéquates sont disponibles pendant les périodes de pointe.

Ajuster l'équilibrage de charge pour l'IA

Un équilibrage de charge correctement réglé résout le problème de la pénurie de GPU tout en garantissant que les tâches d'IA obtiennent les ressources dont elles ont besoin sans délais d'attente et en offrant une sécurité renforcée. Il diffère de l'équilibrage de charge traditionnel en identifiant les différentes exigences informatiques des tâches d'IA.

En analysant les charges de travail, en évaluant leurs besoins en CPU et en GPU et en priorisant les opérations urgentes, les équilibreurs de charge spécifiques à l'IA peuvent répartir dynamiquement le travail sur le matériel le plus approprié. Cette approche protège le GPU coûteux pour les opérations qui nécessitent réellement sa puissance, tout en déchargeant le travail lié au CPU vers des ressources plus rentables.

Surtout, l’équilibrage de charge spécifique à l’IA introduit une nouvelle dimension du contrôle de gestion des jetons . Dans les systèmes d’IA où les jetons jouent un rôle (modèles de langage), l’équilibrage de la charge n’est pas seulement une question d’efficacité matérielle. Les équilibreurs de charge peuvent surveiller l'utilisation des jetons associés aux tâches d'IA et rediriger dynamiquement les requêtes pour optimiser la consommation des jetons et éviter les dépassements de coûts.

De plus, en acheminant intelligemment les tâches en fonction de leur impact potentiel sur la sécurité et de la sensibilité des jetons, les équilibreurs de charge IA aident à isoler les charges de travail à haut risque, offrant ainsi une couche de protection supplémentaire pour les systèmes IA. La mise en œuvre d'une telle stratégie d'équilibrage de charge nécessite un examen attentif de l'intégration du framework, d'une surveillance robuste et des économies potentielles d' une solution d'équilibrage de charge d'IA basée sur le cloud.

Les équilibreurs de charge optimisés par l'IA peuvent offrir un contrôle plus granulaire, par exemple une limitation de débit basée sur des jetons et des algorithmes pour expédier ou déplacer les tâches vers le cluster LLM qui est le plus économique en termes d'utilisation ou de coût des jetons.

L'avenir (l'espoir) est riche

La bonne nouvelle est que l’industrie ne reste pas les bras croisés. Les fabricants de puces intensifient leurs efforts de production et de nouvelles architectures de puces conçues spécifiquement pour l’IA sont sur le point d’être lancées. D’autres centres de données d’IA seront mis en ligne. De nombreux développeurs et équipes d’ingénieurs intelligents améliorent constamment le fonctionnement des modèles d’IA et réduisent le fardeau de leur formation tout en maintenant, voire en améliorant les performances.

Toutefois, ces solutions n’apparaîtront pas du jour au lendemain. Dans le même temps, en adoptant une mentalité axée sur le modèle, en optimisant l'utilisation et en utilisant stratégiquement l'équilibrage de charge, les DSI peuvent atténuer les pires effets de la bulle d'infrastructure actuelle, éviter la pénurie de GPU et garantir que leurs organisations disposent d'une IA adéquate pour faire le travail. cela doit être fait.

Cet article a été publié pour la première fois sur Yunyunzhongsheng ( https://yylives.cc/ ), tout le monde est invité à le visiter.

Un programmeur né dans les années 1990 a développé un logiciel de portage vidéo et en a réalisé plus de 7 millions en moins d'un an. La fin a été très éprouvante ! Des lycéens créent leur propre langage de programmation open source en guise de cérémonie de passage à l'âge adulte - commentaires acerbes des internautes : s'appuyant sur RustDesk en raison d'une fraude généralisée, le service domestique Taobao (taobao.com) a suspendu ses services domestiques et repris le travail d'optimisation de la version Web Java 17 est la version Java LTS la plus utilisée Part de marché de Windows 10 Atteignant 70 %, Windows 11 continue de décliner Open Source Daily | Google soutient Hongmeng pour prendre le relais des téléphones Android open source pris en charge par Docker ; Electric ferme la plate-forme ouverte Apple lance la puce M4 Google supprime le noyau universel Android (ACK) Prise en charge de l'architecture RISC-V Yunfeng a démissionné d'Alibaba et prévoit de produire des jeux indépendants pour les plates-formes Windows à l'avenir
{{o.name}}
{{m.nom}}

Je suppose que tu aimes

Origine my.oschina.net/u/6919515/blog/11102366
conseillé
Classement