Comment les systèmes de stockage prennent en charge l'IA générative de grands modèles

La dernière fois que frère Donggua a entendu parler de l’IA et du ML, c’était début 2019. À cette époque, c'était en fait une période de développement vigoureux des réseaux de neurones convolutifs et des réseaux de neurones profonds, dont l'objectif principal était la classification et la reconnaissance. À cette époque, frère Donggua a également réalisé une vidéo de 4 heures. C'était vraiment la meilleure vidéo que j'ai jamais vue, dans laquelle même les plus jeunes peuvent facilement démarrer et comprendre la relation la plus élémentaire entre les noms et les concepts. À cette époque, l’utilisation de l’IA pour générer certaines œuvres artistiques commençait à prendre forme, mais elle était très immature et était essentiellement destinée au divertissement. Je me souviens qu'au moins deux films de science-fiction l'ont décrit (comme "Mechanical Enemy" et "Finch"). Peut-être que rêver est le début d'une super évolution pour un robot.

IA générative, AI2.0

Les temps ont changé. En quelques années seulement, de nouveaux modèles de Transformers, différents des classificateurs traditionnels, ont encore révolutionné l'IA. Dans le passé, RNN n’était pas très parallèle dans la formation au traitement du langage naturel, nécessitait trop de communication et était relativement inefficace lors du traitement de longues phrases. Le modèle Transformer résout ce problème dans une nouvelle dimension et son haut degré de parallélisme améliore considérablement l'efficacité de la formation GPU. Ce processus ressemble beaucoup à celui de l'émergence des systèmes distribués : tout le monde a lu plusieurs articles classiques encore et encore, puis a commencé à utiliser des logiciels open source et a finalement développé progressivement sa propre technologie.

Lorsque l'IA franchira le niveau du langage humain, le suivi semblera un peu fluide. Parce que les connaissances humaines sont actuellement principalement stockées dans des textes rédigés en différentes langues. Combinée à la cartographie numérique et à l'analyse de diverses informations telles que des images et des sons, l'IA peut fonctionner en mode multimodal, mieux comprendre les informations entre les lignes et générer le contenu correspondant de manière plus raffinée, entrant ainsi dans la réalité.

L'IA générative multimodale (AI Generated Content, AIGC) fait référence à la génération et à l'analyse de données modales multiples, telles que du texte, des images, de l'audio, de la vidéo, etc., pour obtenir des applications intelligentes plus riches et plus précises. Par rapport aux méthodes traditionnelles d'apprentissage automatique, l'IA générative multimodale peut exploiter pleinement la corrélation entre plusieurs types de données et améliorer la capacité de généralisation et la robustesse du modèle. L'IA de production est un symbole important de l'intelligence artificielle de l'ère 1.0 à l'ère 2.0. Elle possède une forte intelligence cognitive et est utilisée dans les moteurs de recherche, la création artistique, les jeux audio et vidéo, la génération de texte, la génération de parole, la génération d'images, la génération de vidéo, génération de code, virtualisation, etc. Il a de larges perspectives d'application dans la vie, la finance, l'éducation, les soins médicaux, l'industrie et d'autres domaines.

Gartner prédit que d'ici 2023, 20 % du contenu sera créé par l'AIGC ; d'ici 2025, la proportion de données générées par l'intelligence artificielle atteindra 10 %. Les analystes prédisent que le marché de l’IA générative atteindra 200 milliards de dollars d’ici 2032, ce qui représentera environ 20 % des dépenses totales en IA, soit nettement plus que les 5 % actuels. En d’autres termes, la taille du marché devrait doubler tous les deux ans au cours de la prochaine décennie.

Derrière l'IA générative se cachent la collecte, l'étiquetage, la formation, le raisonnement et l'archivage de données basées sur les industries en amont et en aval. Elle se caractérise par de grandes quantités de données, des types de données multiples complexes, des protocoles de service divers, des exigences de performance exigeantes et une connexion continue en ligne. prestations de service. En raison de la complexité et de la diversité des données multimodales, l’IA générative multimodale doit présenter les caractéristiques suivantes :

  1. Fusion de données multimodales : capacité à fusionner efficacement des données provenant de différentes modalités pour extraire des informations plus riches.
  2. Compréhension multilingue : capacité à comprendre les différences sémantiques entre différentes langues et à améliorer la précision des applications multilingues.
  3. Conscience du contexte : capable de faire des inférences et des prédictions intelligentes basées sur des informations contextuelles, améliorant ainsi l'adaptabilité de la scène de l'application.
  4. Représentation des connaissances : capacité à représenter efficacement les connaissances et les informations pour soutenir la cognition et la prise de décision de niveau supérieur.

Les systèmes de stockage existants peuvent-ils encore faire face aux nouveaux défis posés par l'innovation ?

Le système d'IA générative multimodale lui-même est un cluster à grande échelle. Qu'il s'agisse de stockage centralisé ou de stockage local à connexion directe, il a longtemps été incapable de répondre aux besoins fondamentaux du système en termes de performances et de capacité de stockage. De plus, tout système de stockage construit avec des disques durs mécaniques ne peut pas supporter les exigences de bande passante et de latence du système de stockage de l’IA générative. De manière générale, les défis rencontrés par l’IA générative en termes de stockage sont les suivants :

Grands ensembles de données : à mesure que la taille des données et des modèles augmente, le stockage indépendant ne peut pas répondre aux besoins des applications. Par conséquent, des solutions de stockage distribué qui résolvent ces problèmes sont impératives.

Archivage complet des données historiques : Dans certains scénarios, le cluster IA génère chaque jour un grand nombre de nouveaux ensembles de données, qui doivent être archivés en tant que données historiques. Ceci est particulièrement important dans le domaine de la conduite autonome, où les données collectées par les véhicules d'essai routier, telles que les données des radars et des caméras, constituent un atout extrêmement précieux pour les entreprises. Dans ces cas-là, le stockage autonome s’avère insuffisant, le stockage distribué devient donc une considération nécessaire.

Petits fichiers excessifs et données non structurées : Il est difficile pour les systèmes de fichiers distribués traditionnels de gérer un grand nombre de petits fichiers, ce qui entraîne un stockage de métadonnées surchargé. Ceci est particulièrement problématique pour les modèles visuels. Pour résoudre ce problème, un système de stockage distribué optimisé pour le stockage de petits fichiers est nécessaire. Cela garantit non seulement l’exécution efficace des tâches de formation de niveau supérieur, mais garantit également la gestion aisée de petits fichiers volumineux.

L'efficacité des E/S des données de formation cloud est faible : la formation de modèles cloud utilise souvent le stockage objet comme stockage sous-jacent de l'architecture de séparation de stockage et de calcul. Cependant, les mauvaises performances de lecture et d'écriture du stockage objet peuvent provoquer de sérieux goulots d'étranglement lors de la formation.

Intégration de données hétérogènes : Les données du modèle de formation d'IA générative présentent une situation hétérogène multi-sources avec plusieurs sources et formats. Le stockage traditionnel est conçu pour un seul type de données et doit déplacer les données pour obtenir un accès multi-protocole. Le stockage devient le cœur de la plateforme d’applications. Goulot d’étranglement majeur.

Faible latence continue et bande passante élevée : pendant le processus de formation du modèle, des jetons sont fréquemment extraits de l'ensemble de données. Chaque jeton fait généralement 4 octets. Une concurrence élevée en temps réel et de petites performances d'E/S nécessitent une latence extrêmement faible ; lors du stockage des points de contrôle du modèle, le point de contrôle les données peuvent être écrites rapidement, nécessitant une bande passante élevée.

Exigences de stockage de grande capacité au niveau EB : Le principe de fonctionnement d'un plus grand nombre de résultats d'alimentation en données sera plus précis, ce qui détermine que la formation de grands modèles présente les caractéristiques de nombreuses couches de réseau d'apprentissage profond, de nombreuses connexions, des paramètres et des ensembles de données complexes et de grandes quantités. Avec la croissance rapide des paramètres du modèle et du volume de données, il existe un besoin urgent d'une grande capacité de stockage et d'une expansion.

L'industrie du stockage de données doit procéder à des mises à niveau technologiques complètes et créer des produits et solutions professionnels de stockage d'IA générative grâce à une innovation continue dans des aspects tels que l'intégration hétérogène multi-sources, la transmission de données à haut débit et la gestion massive des données.

Blocs, fichiers, objets, quelle méthode de stockage est la meilleure ?

stockage en bloc

L’opinion traditionnelle est que dans les scénarios à faible latence et à bande passante élevée, l’utilisation du stockage par blocs est la meilleure solution. Cependant, le stockage en bloc n’est pas satisfaisant en termes d’évolutivité. Les clusters d'IA doivent équilibrer le volume de données, le type de données, la vitesse de décision et bien sûr le budget. Les environnements de formation à l’IA imposent différentes exigences aux moteurs de recommandation Web fonctionnant en temps réel. Le stockage par blocs est traditionnellement bien adapté aux charges de travail à haut débit et à E/S élevées pour lesquelles une faible latence est importante. Cependant, avec l'émergence de charges de travail modernes d'analyse de données, notamment l'intelligence artificielle, l'apprentissage automatique et même les lacs de données, les gens découvrent que les plates-formes traditionnelles basées sur des blocs n'ont pas la capacité de répondre aux demandes d'évolution créées par les aspects informatiques de ces plates-formes. Par conséquent, une approche basée sur les fichiers et les objets est nécessaire pour prendre en charge ces charges de travail modernes.

fichiers et objets

Par conséquent, les architectes système préfèrent le stockage IA et ML basé sur des fichiers ou des objets. Le stockage objet est conçu pour des pétaoctets de grande capacité et est conçu pour être évolutif, prenant également en charge des applications telles que l'Internet des objets (IoT). Le stockage objet est en retard sur les systèmes de stockage par blocs en termes de performances, même si l'écart se réduit à mesure que de nouvelles technologies objet hautes performances deviennent disponibles. Un autre facteur à prendre en compte est que les interfaces d'accès au stockage prises en charge par les applications d'IA varient et que tous les outils d'intelligence artificielle, d'apprentissage automatique ou d'analyse ne prennent pas en charge l'interface S3 d'AWS (la norme de facto pour les objets).

stockage en ligne

Le stockage cloud est principalement basé sur les objets mais offre d'autres avantages pour les projets d'intelligence artificielle et d'apprentissage automatique. Les principaux d’entre eux sont la flexibilité et la réduction des coûts initiaux. Les principaux inconvénients du stockage cloud sont la latence et les coûts potentiels de transfert de données. Le stockage cloud est un bon choix pour les systèmes d’intelligence artificielle et d’apprentissage automatique basés sur le cloud et peut s’avérer rentable pour l’archivage de données à long terme.

En résumé, l’idée reçue veut qu’aucune option ne puisse répondre à elle seule à tous les besoins de stockage pour l’IA, l’apprentissage automatique et l’analyse. Cependant, ce point de vue semble un peu trop arbitraire face à Inspur Information AS13000, un système de stockage distribué vétéran.

Solution de stockage d'IA génératrice d'informations Inspur

La solution de stockage d'IA générative d'Inspur Information utilise un ensemble de stockage convergé AS13000 pour prendre en charge l'application complète de l'IA générative. Elle fournit quatre types de médias : 100 % Flash, Mixed Flash, bibliothèque de bandes et disque optique, et prend en charge les fichiers, les objets. , big data, vidéo et protocoles de bloc. , qui peuvent répondre aux besoins de partage multiprotocole de grande capacité, de plus d'un million d'IOPS, de plus de 100 Go de bande passante, ainsi que de stockage et d'archivage à long terme de données froides. Combiné aux cinq étapes du traitement des données AIGC : collecte de données, préparation des données, formation des données, raisonnement des données et archivage des données, le même ensemble de stockage fournit un processus de prise en charge du flux de données de bout en bout pour répondre aux besoins de texte, d'audio, image, vidéo, code, etc. Exigences des modèles modaux et entièrement modaux.

La solution de stockage d'IA génératrice d'informations d'Inspur présente quatre caractéristiques principales : une intégration extrême, des performances extrêmes, une économie d'énergie extrême et une gestion du stockage du cycle de vie complet à quatre niveaux (chaud, tiède et froid), aidant AIGC à surmonter le goulot d'étranglement du stockage massif de données et accélérer la libération de la valeur IA des données :

La fusion ultime . Afin de répondre aux divers besoins des différents modes, Inspur Information propose un concept de conception de fusion de protocoles. Un cluster prend en charge plusieurs pools de stockage et un pool de stockage prend en charge le stockage de plusieurs types de données tels que le texte, les images, l'audio et la vidéo. Une seule donnée peut être accédée en parallèle par différents scénarios métier front-end sous forme de stockage de fichiers, d'objets, de big data et de vidéos. Utilisez un ensemble de stockage pour implémenter des applications de scène multimodales, réaliser un partage de données en temps réel entre les applications et économiser beaucoup d'espace de stockage.

Performance ultime . Les scénarios AIGC comportent des types de données diversifiés, des fichiers de grande taille et des lectures et écritures fréquentes. La demande de systèmes de stockage avec une bande passante de 100 Go et 1 million d'IOPS est devenue la norme. En termes de logiciel, Inspur Information réduit la quantité de transfert de données est-ouest grâce à l'architecture de séparation CNC, raccourcit le chemin d'E/S grâce à la technologie GDS et RMDA, réduit les copies de données sur le chemin d'E/S via SPDK et la technologie de cache zéro copie. , et basé sur l'auto-recherche La technologie de collaboration de contrôle de disque développée par NVMe SSD réduit le nombre d'accès E/S au disque SSD, libérant ainsi les performances de stockage. En termes de matériel, nous optimisons les canaux de chemin d'E/S, équilibrons les chemins d'E/S et maximisons les performances matérielles. La bande passante d'un seul nœud 100 % Flash dépasse 50 Go/s et les IOPS dépassent 500 000. Nous introduisons de manière innovante des nœuds 100 % Flash à double contrôle avec une bande passante de plus de 100 Go/s. Les IOPS dépassent 1 million, permettant véritablement au système d'atteindre une bande passante de niveau To, des dizaines de millions d'IOPS et une bande passante de niveau EB.

Extrêmement économe en énergie . La dernière plate-forme matérielle G7 d'Inspur Information et les serveurs refroidis par liquide spécifiques au stockage couvrent les types de performances et de capacité, et adoptent tous des modèles de conception de composants de plaques froides modulaires. Au niveau des solutions système, Inspur Information propose des solutions complètes de bout en bout telles que le type vent-liquide et le type liquide-liquide, qui peuvent fournir aux utilisateurs une gamme complète de projets clé en main de centres de données refroidis par liquide, et a complété le secteur. première livraison par lots d'armoires complètes refroidies par liquide. , pour atteindre un PUE <1,1.

Gestion complète du cycle de vie de bout en bout . La solution de stockage d'IA générative d'Inspur utilise quatre supports : mémoire flash, disque, bande et disque optique pour fournir quatre ressources de stockage, chaude, tiède et froide, et réalise l'interopérabilité des ressources et la gestion du cycle de vie complet des données. Sur la base de l'identification de la chaleur des données, l'espace de stockage en ligne est automatiquement libéré et les données massives peuvent être automatiquement archivées dans des bibliothèques de disques optiques, réduisant ainsi les coûts de stockage à long terme ; les données froides peuvent être rapidement rappelées en quelques minutes pour répondre aux besoins de stockage du niveau 0 au niveau 4 candidatures. Quatre types de supports et quatre types de nœuds de stockage assurent le transfert automatique de glace chaude, tiède et froide pour répondre aux besoins de configuration flexibles de diverses applications. Grâce à la configuration flexible à la demande de quatre modèles : type de performance, type équilibré, type de capacité, et le type de capacité haute densité, réduisent encore davantage l'investissement global.

Modèle source auto-développé par Inspur Information

À l'heure actuelle, la solution de stockage d'IA de génération d'informations d'Inspur a été mise en œuvre avec succès dans le modèle chinois leader au monde « Source 1.0 ». Le grand modèle en langue chinoise « Source » comporte près de 250 milliards de paramètres de modèle et la consommation d'énergie de calcul atteint plus de 4 000 PetaFlop/s-jour. La couche inférieure est prise en charge par le stockage parallèle AS13000. Les données brutes sont traitées par criblage grossier et par criblage fin. pour obtenir un chinois de haute qualité. Les données sont concentrées sur AS13000.

Les défis de stockage au cours du processus de formation du modèle incluent principalement les performances de la concurrence de petits fichiers et les exigences d'écriture rapides et étendues pour enregistrer rapidement les fichiers d'archive Checkpoint pendant le processus de formation. L'AS13000 adopte la dernière plate-forme matérielle, équipée d'un SSD 100 % flash et d'un réseau IB haut débit, pour prendre en charge l'achèvement efficace du processus de formation des sources.

Selon les calculs, GPT-3 a utilisé 10 000 GPU et a pris 30 jours pour s'entraîner pour compléter 175 milliards de paramètres. "Source 1.0" a fonctionné sur 2 128 clusters GPU pendant 16 jours pour terminer la formation. L'efficacité de la puissance de calcul de Source 1.0 a atteint 44,8%. bien supérieur aux modèles de renommée internationale tels que Super MT-NLG et GPT-3 sont indispensables pour les performances ultimes du stockage.

Une entreprise licorne IA

La société prévoit de publier un grand modèle de langage NLP avec 500 milliards de paramètres. Afin de maximiser l'efficacité informatique, elle adopte une conception qui sépare le réseau informatique et le réseau de stockage. Le réseau informatique utilise un IB à haut débit et le réseau de stockage choisit RoCE propose également des solutions de stockage avec des exigences claires : stockage haut débit de pas moins de 3,5 Po, exigences de performances de 300 Go de bande passante et plus de 3,5 millions d'IOPS. Après une évaluation complète en termes de professionnalisme, de coût de développement, de cycle, d'exploitation et de maintenance, le client a sélectionné le cluster de stockage 100 % flash distribué Inspur Information AS13000, qui prend en charge la mise en réseau RocE hautes performances et les fonctions de stockage GPU pass-through, offrant des performances élevées. et des clusters de puissance de calcul à faible coût.Garantie de lecture différée des données. Parallèlement, au fur et à mesure de la mise en ligne de l'entreprise, deux extensions de stockage en ligne ont été réalisées, offrant une très bonne flexibilité et des capacités d'extension linéaire des performances de capacité.

Avec l'avènement de l'ère AIGC, Inspur Information, en tant que l'une des premières entreprises à présenter le grand modèle AIGC, continue de se concentrer sur le concept de « nouvelle approche de stockage » et continue de créer des produits de stockage basés sur une plate-forme pour répondre aux besoins de stockage. les défis de l’ère intelligente et de l’ère AIGC.

Auteur de cet article | Dahua Storage Winter Melon Brother

 

Guess you like

Origin blog.csdn.net/annawanglhong/article/details/132302699