L'article de dix mille caractères explique l'application de grands modèles dans le domaine de la conduite autonome

Groupe de communication |  Entrez "Groupe de capteurs/groupe de châssis de planche à roulettes/groupe de logiciels de base de voiture/groupe de contrôleur de domaine", veuillez scanner le code QR à la fin de l'article , ajoutez Jiuzhang Assistant , assurez-vous de noter le nom du groupe d'échange + réel nom + entreprise + position (pas de remarques Impossible de passer la vérification d'ami) 


62cbeceeee46d7656d07f386d6adb6f8.png

Auteur | Zhang Mengyu

Avec la popularité de ChatGPT, les grands modèles ont reçu de plus en plus d'attention, et les capacités affichées par les grands modèles sont incroyables.

Dans des domaines tels que la génération d'images, les systèmes de recommandation et la traduction automatique, les grands modèles ont déjà commencé à jouer un rôle. Compte tenu de quelques mots rapides, le site Web de génération d'images Midjourney a généré des dessins de conception qui ont même dépassé le niveau de nombreux concepteurs professionnels.

Pourquoi les grands modèles peuvent-ils montrer des capacités incroyables ? Pourquoi les performances du modèle s'améliorent-elles lorsque le nombre de paramètres et la capacité du modèle augmentent ?

Un expert d'une société d'algorithmes d'IA a déclaré à l'auteur : L'augmentation du nombre de paramètres du modèle peut être comprise comme l'augmentation de la dimension du modèle, ce qui signifie que nous pouvons simuler les lois du monde réel de manière plus complexe. chemin. Prenez le scénario le plus simple comme exemple, donnez un nuage de points sur un graphique plan, si nous utilisons une ligne droite (une fonction à une variable) pour décrire la loi des points de dispersion sur le graphique, alors quel que soit le nombre de paramètres, il y aura toujours un point en dehors de cette ligne. Si nous utilisons une parabole (une fonction binaire) pour décrire la loi de ces points, alors il y aura plus de points qui peuvent tomber sur cette ligne. Au fur et à mesure que la dimension de la fonction augmente, ou que le degré de liberté augmente, de plus en plus de points tomberont sur cette ligne, ce qui signifie que les règles de ces points seront ajustées avec plus de précision.

En d'autres termes, plus le nombre de paramètres dans le modèle est grand, plus il est facile pour le modèle de s'adapter aux lois des données massives.

Avec l'émergence de ChatGPT, les gens ont constaté que lorsque les paramètres du modèle atteignent un certain niveau, l'effet présenté n'est pas seulement "de meilleures performances", mais "mieux que prévu".

Dans le domaine du NLP (Natural Language Processing), il existe un phénomène passionnant dont les universitaires et l'industrie ne peuvent pas expliquer les principes spécifiques : "Emerging Ability".

Qu'est-ce que "l'émergence" ? "Emergence" signifie que lorsque la quantité de paramètres du modèle augmente linéairement dans une certaine mesure, la précision du modèle augmente de manière exponentielle.

Nous pouvons regarder une image. Le côté gauche de l'image ci-dessous montre la loi d'échelle (Scaling Law), qui est un phénomène découvert par les chercheurs d'OpenAI avant 2022. C'est-à-dire que l'échelle des paramètres du modèle augmente de façon exponentielle, la précision de le modèle diminuera, puis il augmentera linéairement. Les paramètres du modèle à gauche ne croissent pas de façon exponentielle mais linéairement

En janvier 2022, certains chercheurs ont constaté que lorsque l'échelle des paramètres du modèle dépasse un certain niveau, le degré d'amélioration de la précision du modèle dépasse considérablement la courbe proportionnelle, comme indiqué à droite de la figure ci-dessous. 

d5caad8e6ef6bd9e2c0f43f04eb69e66.png △Schéma schématique de "l'émergence"

Lorsqu'ils sont implémentés au niveau de l'application, nous constaterons que les grands modèles peuvent accomplir certaines tâches que les petits modèles ne peuvent pas accomplir, comme les grands modèles qui peuvent faire des additions et des soustractions, et un raisonnement simple.

Quel type de modèle peut être appelé un grand modèle ?

D'une manière générale, nous pensons qu'un modèle avec plus de 100 millions de paramètres peut être qualifié de "grand modèle". Dans le domaine de la conduite autonome, les grands modèles ont principalement deux sens : l'un est un modèle avec plus de 100 millions de paramètres, l'autre est un modèle composé de plusieurs petits modèles superposés.

Selon cette définition, dans le domaine de la conduite autonome, les grands modèles ont commencé à être largement utilisés. Dans le cloud, nous pouvons tirer parti des avantages de capacité apportés par l'augmentation du nombre de paramètres de modèle et utiliser de grands modèles pour effectuer certaines tâches telles que l'exploration de données et l'étiquetage des données. Côté voiture, nous pouvons combiner plusieurs petits modèles en charge de différentes sous-tâches en un "grand modèle", ce qui peut économiser le temps de raisonnement du lien informatique côté voiture et augmenter la sécurité.

Plus précisément, comment les grands modèles peuvent-ils aider ? Selon les informations échangées par l'auteur avec divers experts de l'industrie, l'industrie utilise actuellement principalement de grands modèles dans le domaine de la perception. Ensuite, nous présenterons comment les grands modèles peuvent habiliter les tâches de perception dans le cloud et côté véhicule.

1. Application de grands modèles

1.1

Application de grands modèles dans le cloud

1.1.1 Étiquetage automatique des données

L'étiquetage automatique peut être réalisé à l'aide d'une pré-formation de grands modèles. Prenant l'annotation de clip vidéo comme exemple, un grand modèle peut être pré-formé avec une grande quantité de données de clip non étiquetées grâce à l'auto-supervision, puis affiné avec une petite quantité de données de clip étiquetées manuellement pour rendre le modèle capable de détection. Le modèle peut étiqueter automatiquement les données du clip.

Plus la précision d'étiquetage du modèle est élevée, plus le degré de substitution humaine est élevé.

À l'heure actuelle, de nombreuses entreprises étudient comment améliorer la précision de l'étiquetage automatique de grands modèles, dans l'espoir de réaliser l'étiquetage automatique sans pilote complet une fois que la précision a atteint la norme.

Leo, directeur produit de SenseTime Intelligent Driving, a déclaré à l'auteur : Nous avons effectué des évaluations, et pour les cibles courantes sur la route, la précision de l'étiquetage automatique du grand modèle de SenseTime peut atteindre plus de 98 %.

Dans le processus de développement de produits de conduite intelligente, Shangtang Jueying a introduit le pré-étiquetage automatique de grands modèles pour la plupart des tâches de détection.Par rapport au passé, le cycle d'étiquetage et le coût d'étiquetage peuvent être réduits de dizaines de milliers en obtenant le même nombre de temps d'échantillons de données, améliorant considérablement l'efficacité du développement. 

D'une manière générale, les attentes de chacun pour les tâches d'étiquetage incluent principalement une grande efficacité dans le processus d'étiquetage, une grande précision des résultats d'étiquetage et une grande cohérence. Haute efficacité et haute précision sont faciles à comprendre, mais que signifient haute cohérence ? Dans l'algorithme BEV pour la reconnaissance 3D, les ingénieurs doivent utiliser l'annotation conjointe du lidar et de la vision, et doivent traiter conjointement les données de nuage de points et d'image. Dans ce lien de traitement, les ingénieurs peuvent également avoir besoin de faire des annotations au niveau de la synchronisation, de sorte que les résultats des images précédentes et suivantes ne puissent pas être trop différents.

Si l'étiquetage manuel est utilisé, l'effet d'étiquetage dépend du niveau d'étiquetage de l'étiqueteuse. Le niveau irrégulier de l'étiqueteuse peut entraîner des résultats d'étiquetage incohérents. Il peut y avoir une grande boîte d'étiquette sur une image et une plus petite sur l'image suivante Cependant, les résultats d'étiquetage des grands modèles sont généralement cohérents.

Cependant, certains experts de l'industrie ont également signalé qu'il existe encore des difficultés dans la mise en œuvre de l'étiquetage automatique avec de grands modèles dans des applications pratiques, en particulier dans le lien entre les entreprises autonomes et les entreprises d'étiquetage - de nombreuses entreprises autonomes sous-traiteront une partie du travail d'étiquetage à les entreprises d'étiquetage, et certaines entreprises n'ont pas d'équipe d'étiquetage interne, et tout le travail d'étiquetage est externalisé.

À l'heure actuelle, les cibles marquées par la méthode de pré-marquage du grand modèle sont principalement des cibles 3D dynamiques. L'entreprise autonome utilisera d'abord le grand modèle pour faire une inférence sur la vidéo qui doit être marquée, puis utilisera le résultat du raisonnement - la trame 3D générée par le modèle Remettre à la société de labellisation. Lors du pré-étiquetage avec un grand modèle d'abord, puis de la remise des résultats pré-étiquetés à l'entreprise d'étiquetage, deux problèmes seront impliqués : le premier est que la plate-forme d'étiquetage de certaines entreprises d'étiquetage ne prend pas nécessairement en charge le chargement des résultats pré-étiquetés , L'autre est que les entreprises de labellisation ne sont pas nécessairement disposées à modifier les résultats pré-labellisés.

Si l'entreprise d'étiquetage souhaite charger les résultats pré-étiquetés, elle a besoin d'une plate-forme logicielle qui prend en charge le chargement du cadre 3D généré par le grand modèle. Cependant, certaines entreprises d'étiquetage peuvent utiliser principalement l'étiquetage manuel et ne disposent pas d'une plate-forme logicielle prenant en charge le chargement des résultats pré-étiquetés du modèle. S'ils obtiennent les résultats du modèle pré-étiqueté lors de la connexion avec les clients, ils n'ont aucun moyen de le faire. .

De plus, du point de vue de l'entreprise d'étiquetage, ce n'est que lorsque l'effet de pré-étiquetage est suffisamment bon qu'elle peut vraiment "économiser de l'effort", sinon cela peut augmenter la charge de travail.

Si l'effet du pré-étiquetage n'est pas suffisant, l'entreprise d'étiquetage doit encore faire beaucoup de travail à l'avenir, comme marquer les boîtes manquantes, supprimer les boîtes mal étiquetées et unifier la taille des boîtes. Ensuite, adopter le pré-étiquetage peut ne pas vraiment les aider à réduire leur charge de travail.

Par conséquent, dans les applications pratiques, l'utilisation d'un grand modèle pour le pré-étiquetage doit être pesée par l'entreprise de conduite autonome et l'entreprise d'étiquetage.

Bien entendu, le coût de l'étiquetage manuel est relativement élevé à l'heure actuelle. Si l'entreprise d'étiquetage partait de zéro, le coût de l'étiquetage manuel pour 1 000 images de données vidéo pourrait atteindre 10 000 yuans. Par conséquent, les entreprises de conduite autonome espèrent toujours améliorer autant que possible la précision du pré-étiquetage des grands modèles et réduire autant que possible la charge de travail de l'étiquetage manuel, réduisant ainsi le coût de l'étiquetage.

1.1.2 Exploration de données

Les grands modèles ont une forte généralisation et conviennent à l'exploration de données à longue traîne.

Un expert de WeRide a déclaré à l'auteur : Si la méthode traditionnelle basée sur les étiquettes est utilisée pour extraire des scènes à longue traîne, le modèle ne peut généralement distinguer que les catégories d'images connues. En 2021, OpenAI a publié le modèle CLIP (un modèle multimodal texte-image, qui peut correspondre à du texte et des images après un pré-entraînement non supervisé, de manière à classer les images en fonction du texte, plutôt que de s'appuyer uniquement sur les étiquettes des images. ), nous pouvons également utiliser un tel modèle multimodal texte-image pour récupérer des données d'image dans le journal du lecteur avec des descriptions textuelles. Par exemple, des scènes à longue traîne telles que "des véhicules de construction traînant des marchandises", "des feux de circulation avec deux ampoules allumées en même temps", etc.

De plus, les grands modèles peuvent mieux extraire les caractéristiques des données, puis trouver des objets avec des caractéristiques similaires.

Supposons que nous voulions trouver des images contenant des travailleurs de l'assainissement à partir de nombreuses images. Nous n'avons pas besoin d'étiqueter d'abord les images. Nous pouvons utiliser un grand nombre d'images contenant des travailleurs de l'assainissement pour pré-former le grand modèle, et le grand modèle peut en extraire quelques-unes. travailleurs de l'assainissement de leur part. Ensuite, trouvez des échantillons qui correspondent aux caractéristiques des travailleurs de l'assainissement à partir des images, de manière à extraire presque toutes les images contenant des travailleurs de l'assainissement.

1.1.3 « Enseigner » les petits modèles par distillation des connaissances

Le grand modèle peut également "enseigner" le petit modèle au moyen de la distillation des connaissances.

Qu'est-ce que la distillation des connaissances ? Pour expliquer dans les termes les plus courants, le grand modèle apprend d'abord certaines connaissances à partir des données, ou extrait certaines informations, puis utilise les connaissances apprises pour "enseigner" le petit modèle.

En pratique, nous pouvons d'abord apprendre les images qui doivent être étiquetées sur le grand modèle, et le grand modèle peut étiqueter ces images. De cette façon, nous avons des images étiquetées et utilisons ces images pour former le petit modèle, c'est-à-dire One des moyens les plus simples de distillation des connaissances.

Bien sûr, nous pouvons également utiliser des méthodes plus complexes, telles que l'utilisation de grands modèles pour extraire des caractéristiques à partir de données massives, et ces caractéristiques extraites peuvent être utilisées pour former de petits modèles. En d'autres termes, nous pouvons également rendre la conception plus compliquée et ajouter un modèle moyen entre le grand modèle et le petit modèle. Les caractéristiques extraites par le grand modèle sont d'abord formées sur le modèle moyen, puis le modèle moyen formé est utilisé. pour extraire des fonctionnalités et remis au petit modèle. Les ingénieurs peuvent choisir la méthode de conception en fonction de leurs propres besoins.

L'auteur a appris de Pony.ai que de petits modèles tels que l'attention des piétons et la reconnaissance de l'intention des piétons peuvent être obtenus par distillation et réglage fin sur la base des caractéristiques extraites du grand modèle. De plus, puisqu'un grand modèle est partagé dans l'étape d'extraction des caractéristiques, le le montant du calcul peut être réduit.

1.1.4 La limite supérieure de performance du modèle de voiture d'essai

Le grand modèle peut également être utilisé pour tester la limite de performance du modèle d'extrémité de voiture. Lorsque certaines entreprises réfléchissent au modèle à déployer côté véhicule, elles testent d'abord plusieurs modèles candidats sur le cloud pour voir quel modèle a le meilleur effet et les meilleures performances après avoir augmenté le nombre de paramètres.

Ensuite, le modèle avec le meilleur effet est utilisé comme modèle de base, puis le modèle de base est coupé et optimisé et déployé à l'extrémité du véhicule.

1.1.5 Reconstruction et génération de données de scénarios de conduite autonome

Momo Zhixing a mentionné lors de AI DAY en janvier 2023 : "En utilisant la technologie NeRF, nous pouvons implicitement stocker la scène dans le réseau de neurones, puis apprendre les paramètres implicites de la scène grâce à l'apprentissage supervisé d'images rendues, puis La reconstruction de l'autonomie scène de conduite peut être effectuée.

Par exemple, nous pouvons entrer des images, des poses correspondantes et des nuages ​​de points de scène densément colorés dans le réseau, et pixelliser les nuages ​​de points colorés à différentes résolutions en fonction de la pose de l'image d'entrée basée sur le réseau de grille de points. échelles, puis fusionner les entités à différentes échelles à travers le réseau.

Ensuite, entrez le descripteur de nuage de points dense généré, la position, les paramètres de caméra correspondants et les paramètres d'exposition d'image dans le réseau suivant pour affiner le mappage des tons, puis synthétisez une image avec une couleur et une exposition cohérentes.

De cette façon, nous pouvons réaliser la reconstruction de la scène. Ensuite, nous pouvons générer diverses données hautement réalistes en modifiant l'angle de vue, en modifiant l'éclairage et en modifiant la texture et le matériau. Par exemple, en modifiant l'angle de vue, nous pouvons simuler divers comportements principaux du véhicule, tels que le changement de voie, détours et demi-tours, et même simuler certaines collisions imminentes. données de scène à haut risque.

1.2

Application de grand modèle dans le véhicule

1.2.1 Combinaison de petits modèles pour détecter différentes tâches

La principale forme d'utilisation de grands modèles côté véhicule consiste à combiner de petits modèles qui gèrent différentes sous-tâches pour former un "grand modèle", puis à faire un raisonnement conjoint. Le "grand modèle" ici n'est pas un grand nombre de paramètres au sens traditionnel, par exemple, un grand modèle avec plus de 100 millions de paramètres. Bien sûr, le modèle combiné sera beaucoup plus grand que le petit modèle qui gère différentes sous-tâches .

Dans le modèle traditionnel de perception côté voiture, les modèles traitant de différentes sous-tâches sont raisonnés indépendamment. Par exemple, un modèle est responsable de la tâche de détection de la ligne de voie et un modèle est responsable de la tâche de détection des feux de circulation. À mesure que les tâches de perception augmentent, les ingénieurs augmentent en conséquence la perception de modèles cibles spécifiques dans le système.

Le système de conduite automatique précédent a moins de fonctions et les tâches de perception sont relativement faciles.Cependant, avec la mise à niveau des fonctions du système de conduite automatique, il y a de plus en plus de tâches de perception.Le retard du système sera trop important et il y aura être des risques de sécurité.

Dans le cadre de perception multi-tâches BEV de Juefei Technology, les petits modèles de perception à tâche unique de différentes cibles sont combinés pour former une information statique qui peut produire des informations statiques en même temps - y compris les lignes de voie, les flèches au sol, les passages cloutés aux intersections , lignes d'arrêt, etc., et Informations dynamiques, y compris l'emplacement, la taille, l'orientation, etc. des participants à la circulation. Le cadre de l'algorithme de perception multi-tâches BEV de Juefei Technology est illustré dans la figure ci-dessous :

a55795590cd6cdc194408fae04c292e1.png △Schéma schématique du cadre d'algorithme de perception multi-tâches BEV de Juefei Technology

Le modèle de perception multitâche réalise la fusion temporelle des fonctionnalités - stocke les fonctionnalités BEV à des moments historiques dans la file d'attente des fonctionnalités. Effectue un alignement spatio-temporel (y compris la rotation et la traduction des fonctionnalités), puis fusionne les fonctionnalités BEV historiques alignées avec le BEV actuel. caractéristiques.

Dans les scénarios de conduite autonome, la fusion temporelle peut améliorer la précision des algorithmes de perception et compenser dans une certaine mesure les limites de la perception à image unique. Prenez la sous-tâche de détection de cible 3D illustrée dans la figure comme exemple.Avec la fusion temporelle, le modèle de perception peut détecter certaines cibles qui ne peuvent pas être détectées par le modèle de perception à image unique (comme la cible qui est occluse au moment actuel), et peut également juger la cible avec plus de précision, la vitesse de déplacement et la prédiction de trajectoire des tâches auxiliaires en aval.

Le Dr Qi Yuhan, responsable de la technologie de perception BEV de Juefei Technology, a déclaré à l'auteur : Avec une telle architecture de modèle, lorsque les tâches de perception deviennent de plus en plus complexes, le cadre de la perception conjointe multitâche peut assurer une perception et une sortie en temps réel. de plus en plus de résultats de perception précis sont fournis pour une utilisation en aval du système de conduite autonome.

Cependant, la fusion de petits modèles multi-tâches pose également quelques problèmes. Au niveau de l'algorithme, les performances du modèle fusionné sur différentes sous-tâches peuvent présenter un phénomène de "retour en arrière", c'est-à-dire que les performances de détection du modèle sont inférieures à celles d'un modèle à tâche unique indépendant. Bien que la structure en réseau du grand modèle fusionné par différents petits modèles puisse encore être très délicate, le modèle fusionné doit résoudre le problème de la formation conjointe multi-tâches.

Dans une formation conjointe multitâche, chaque sous-tâche peut ne pas être en mesure d'atteindre une convergence simultanée et synchrone, et chaque tâche sera affectée par un "transfert négatif", et le modèle combiné aura une "régression" de précision sur certaines tâches spécifiques . ". L'équipe algorithmique doit optimiser au maximum la structure du modèle combiné, ajuster la stratégie d'entraînement conjointe et réduire l'impact du phénomène de "transfert négatif".

1.2.2 Détection d'objet

Un expert de l'industrie a déclaré à l'auteur : Certains objets avec des valeurs vraies relativement fixes conviennent à la détection avec de grands modèles.

Alors, qu'est-ce qu'un objet avec une valeur de vérité relativement fixe ?

Les objets dits à valeur réelle fixe sont des objets dont la valeur réelle ne sera pas affectée par des facteurs tels que la météo et le temps, tels que les lignes de voies, les piliers, les lampadaires, les feux de circulation, les passages cloutés, les lignes de stationnement dans les sous-sols, les places de stationnement, etc. . Ces objets existent avec Non, l'emplacement est fixe où qu'il se trouve et ne changera pas en raison de facteurs tels que la pluie ou l'obscurité. Tant que le véhicule traverse la zone correspondante, leur emplacement est fixe. De tels objets conviennent à la détection avec de grands modèles.

1.2.3 Prédiction de la topologie des voies

Une entreprise autonome mentionnée lors de l'AI DAY de l'entreprise : "Sur la base de la carte des caractéristiques du BEV, nous utilisons la carte standard comme information de guidage et utilisons le réseau de codecs autorégressifs pour décoder les caractéristiques du BEV en une séquence de points topologiques structurée. , pour réaliser la prédiction de la topologie des voies.

2. Comment bien utiliser les grands modèles

Sous la tendance de l'open source dans l'industrie, le cadre du modèle de base n'est pas un secret. Dans de nombreux cas, ce sont les capacités d'ingénierie qui déterminent si une entreprise peut fabriquer un bon produit.

La capacité d'ingénierie détermine si nous pouvons vérifier rapidement la faisabilité de cette idée lorsque nous pensons à certaines méthodes qui peuvent être efficaces pour améliorer les capacités du système. Ce que Tesla et Open AI ont en commun, c'est que les deux entreprises disposent de solides capacités d'ingénierie : elles peuvent tester la fiabilité d'une idée le plus rapidement possible, puis appliquer des données à grande échelle au modèle sélectionné.

Pour tirer pleinement parti des capacités des grands modèles dans la pratique, les capacités d'ingénierie de l'entreprise sont très importantes. Ensuite, nous expliquerons quel type de capacités d'ingénierie sont nécessaires pour faire bon usage des grands modèles selon le processus de développement du modèle.

2.1

Mettre à niveau le stockage des données, le système de transfert de fichiers

Les paramètres d'un grand modèle sont importants et, par conséquent, la quantité de données utilisées pour former un grand modèle est également importante. Par exemple, l'équipe d'algorithmes de Tesla a utilisé environ 1,4 milliard d'images pour former le réseau d'occupation 3D dont l'équipe a parlé lors de la journée de l'IA l'année dernière.

En fait, la valeur initiale du nombre d'images sera probablement des dizaines ou des centaines de fois le nombre réel utilisé, car nous devons filtrer les données utiles pour la formation de modèles à partir de données massives. sont de 1,4 milliard, le nombre d'images originales doit être largement supérieur à 1,4 milliard.

Alors, comment stocker des dizaines de milliards voire des centaines de milliards de données d'images ? C'est un énorme défi à la fois pour le système de lecture de fichiers et pour le système de stockage de données. En particulier, les données de conduite autonome actuelles se présentent sous la forme de clips et le nombre de fichiers est important, de sorte que l'efficacité du stockage aléatoire de petits fichiers est très élevée.

Afin de faire face à de tels défis, certaines entreprises du secteur utilisent le stockage de tranches pour les données, puis adoptent une architecture distribuée pour prendre en charge l'accès multi-utilisateurs et multi-concurrent. La bande passante de débit de données peut atteindre 100 G/s, et le I/ Le délai O peut être aussi faible que 2 millisecondes. Le soi-disant multi-utilisateur signifie que de nombreux utilisateurs accèdent à un fichier de données en même temps ; la multi-concurrence signifie qu'un fichier de données doit être accessible dans plusieurs threads. Par exemple, lorsqu'un ingénieur utilise le multi-threading lors de la formation d'un modèle , chaque thread Un fichier de données est requis.

2.2

Trouver efficacement la bonne architecture réseau

Avec le big data, comment s'assurer que le modèle résume mieux les informations des données ? Cela nécessite que le modèle ait une architecture réseau adaptée à la tâche correspondante, de manière à tirer pleinement parti du grand nombre de paramètres du modèle, afin que le modèle ait une forte capacité d'extraction d'informations.

Lucas, le directeur principal de la recherche et du développement de modèles à grande échelle de SenseTime, a déclaré à l'auteur : nous avons un système de conception de modèles semi-automatiques standardisés de qualité industrielle. En nous appuyant sur ce système, nous pouvons utiliser un ensemble de réseaux de neurones rechercher des systèmes comme base lors de la conception de l'architecture réseau de très grands modèles. , pour trouver l'architecture réseau la plus appropriée pour l'apprentissage de données à grande échelle.

Lors de la conception d'un petit modèle, nous nous appuyons principalement sur la conception manuelle, le réglage et l'itération pour finalement obtenir un modèle avec des résultats satisfaisants.Bien que ce modèle ne soit pas optimal, il peut essentiellement répondre aux exigences après l'itération.

Face aux grands modèles, étant donné que la structure de réseau des grands modèles est très complexe, si la conception, le réglage et l'itération manuels sont utilisés, la consommation de puissance de calcul sera importante et le coût sera d'autant plus élevé. Ensuite, comment concevoir rapidement et efficacement une architecture de réseau avec un effet suffisant pour la formation avec des ressources limitées est un problème qui doit être résolu.

Lucas a expliqué : Nous avons un ensemble de bibliothèques d'opérateurs, et la structure de réseau du modèle peut être considérée comme un ensemble de permutations et de combinaisons d'opérateurs. Ce système de recherche de qualité industrielle peut calculer comment organiser et combiner les opérateurs en partant du principe de la définition des paramètres de base, y compris le nombre de couches de réseaux et le nombre de paramètres, afin d'obtenir de meilleurs effets de modèle.

L'effet du modèle peut être évalué en fonction de certains indicateurs, notamment la précision de prédiction de certains ensembles de données, l'utilisation de la mémoire du modèle lorsqu'il est en cours d'exécution et la durée d'exécution du modèle. En attribuant des poids correspondants à ces indicateurs, nous pouvons itérer en continu jusqu'à ce que nous trouvions un modèle satisfaisant. Bien sûr, dans le processus de recherche, nous utiliserons d'abord quelques petites scènes pour évaluer initialement l'effet du modèle.

Lors de l'évaluation de l'effet du modèle, comment choisir des scènes plus représentatives ?

D'une manière générale, certains scénarios courants peuvent être sélectionnés. L'objectif principal de la conception de l'architecture réseau est de s'assurer que le modèle a la capacité d'extraire des informations clés à partir d'une grande quantité de données, plutôt que d'espérer que le modèle puisse apprendre les caractéristiques de certains scénarios spécifiques de manière ciblée. l'architecture du modèle est déterminée, le modèle sera utilisé pour effectuer certaines tâches d'exploration de scénarios à longue traîne, mais lors de la sélection d'une architecture de modèle, des scénarios généraux seront utilisés pour évaluer les capacités du modèle.

Avec un système de recherche de réseau neuronal à haute efficacité et haute précision, l'efficacité et la précision du calcul sont suffisamment élevées, l'effet du modèle peut être rapidement convergé et une architecture de réseau avec un bon effet peut être rapidement trouvée dans un espace immense.

2.3

Améliorez l'efficacité de la formation des modèles

Après avoir fait le travail de base précédent, nous arrivons à la session de formation.Il y a beaucoup d'endroits dignes d'être optimisés dans la session de formation.

2.3.1 Opérateur d'optimisation

Le réseau de neurones peut être compris comme une combinaison de plusieurs opérateurs de base, le calcul des opérateurs consommant des ressources de calcul d'une part et de la mémoire d'autre part. Si l'opérateur peut être optimisé pour améliorer l'efficacité de calcul de l'opérateur, alors l'efficacité de la formation peut être améliorée.

À l'heure actuelle, il existe déjà des cadres de formation en IA sur le marché, tels que PyTorch, TensorFlow, etc. Ces cadres de formation peuvent fournir aux ingénieurs en apprentissage automatique des opérateurs de base à appeler pour créer leurs propres modèles. Certaines entreprises construiront leur propre cadre de formation et optimiseront les opérateurs sous-jacents afin d'améliorer l'efficacité de la formation.

Parce que PyTorch et TensorFlow doivent assurer au maximum la polyvalence, les opérateurs fournis sont généralement très basiques. Les entreprises peuvent intégrer des opérateurs de base en fonction de leurs propres besoins, en épargnant les étapes de stockage des résultats intermédiaires, en économisant l'utilisation de la mémoire vidéo et en évitant la perte de performances.

De plus, pour résoudre le problème que certains opérateurs spécifiques ne peuvent pas tirer parti du parallélisme du GPU en raison de leur forte dépendance aux résultats intermédiaires lors du calcul, certaines entreprises du secteur ont construit leurs propres bibliothèques d'accélération pour réduire la dépendance de ces opérateurs. sur les résultats intermédiaires. , afin que le processus de calcul puisse tirer pleinement parti des avantages du calcul parallèle du GPU et améliorer la vitesse d'entraînement.

Par exemple, sur les quatre modèles Transformer grand public, LightSeq de ByteDance a atteint une accélération jusqu'à 8 fois basée sur PyTorch.

2.3.2 Faire bon usage des stratégies parallèles

Le calcul parallèle est une méthode "d'échange d'espace contre du temps", c'est-à-dire de paralléliser autant que possible les données sans dépendances de calcul, de diviser de gros lots en petits lots, de réduire le temps d'attente inactif du GPU à chaque étape de calcul et d'améliorer le calcul quantité de débit.

À l'heure actuelle, de nombreuses entreprises ont adopté le cadre de formation de PyTorch, qui a le mode DDP - en tant que mode de formation parallèle de données distribuées, le mode DDP a conçu un mécanisme de distribution de données pour prendre en charge la formation multi-cartes multi-machines, telle qu'une La société a 8 serveurs, et chaque serveur a 8 cartes, nous pouvons donc utiliser 64 cartes pour la formation en même temps.

Sans ce mode, les ingénieurs ne peuvent utiliser qu'une seule machine avec plusieurs cartes pour entraîner le modèle. Supposons que nous utilisions maintenant 100 000 images pour entraîner le modèle. En mode mono-machine multi-cartes, le temps d'entraînement dépassera une semaine. Si nous voulons utiliser les résultats de la formation pour évaluer une certaine conjecture, ou si nous voulons sélectionner le meilleur parmi plusieurs modèles candidats, un tel temps de formation rend la période d'attente pour vérifier rapidement la conjecture et vérifier rapidement l'effet du modèle très longue. Ensuite, l'efficacité de la recherche et du développement est très faible.

Avec la formation parallèle multi-machines et multi-cartes, la plupart des résultats expérimentaux peuvent être vus dans les jours 2-3. De cette façon, le processus de vérification de l'effet du modèle est beaucoup plus rapide.

En termes de méthodes parallèles spécifiques, le parallélisme de modèles et le parallélisme de séquences peuvent être principalement utilisés.

Le parallélisme de modèle peut être divisé en parallélisme de pipeline et en parallélisme de tenseur, comme illustré dans la figure ci-dessous.

6fe9492f10fc36607f489c72e117a3b9.png △Schéma schématique du pipeline parallèle et du tenseur parallèle, l'image provient de NVIDIA

Le parallélisme de pipeline est un parallélisme inter-couches (la partie supérieure de la figure).Les ingénieurs peuvent se souvenir de diviser différentes couches du modèle en différents GPU pour le calcul pendant le processus de formation. Par exemple, comme le montre la partie supérieure de la figure, les couches de la partie verte et de la partie bleue peuvent être calculées sur des GPU différents.

Le parallélisme tenseur est un parallélisme intra-couche (la partie inférieure de la figure), les ingénieurs peuvent répartir le calcul d'une couche sur différents GPU. Ce mode est adapté au calcul de grandes matrices, car il peut réaliser un équilibrage de charge entre GPU, mais le nombre de communications et la quantité de données sont relativement importantes.

En plus du parallélisme des modèles, il existe également le parallélisme des séquences. Étant donné que le parallélisme du tenseur ne divise pas la norme de couche et l'abandon, ces deux opérateurs seront calculés à plusieurs reprises entre chaque GPU. Bien que la quantité de calcul ne soit pas importante, elle prend un beaucoup de mémoire vidéo active.

Afin de résoudre ce problème, dans le processus réel, nous pouvons tirer parti du fait que Layer-norm et Dropout sont indépendants l'un de l'autre le long de la dimension de la séquence (c'est-à-dire que Layer_norm et Dropout entre différentes couches n'affectent pas chacun Pour Layer- Norm et Dropout sont divisés, comme indiqué dans la figure ci-dessous. L'avantage de cette division est qu'elle n'augmentera pas le trafic et peut réduire considérablement l'utilisation de la mémoire.

a4ea6621afcea577f982b11d7c43825a.png △ Diagramme schématique parallèle de séquence, l'image provient de NVIDIA

En pratique, différents modèles conviennent à différentes stratégies parallèles.Les ingénieurs doivent trouver une stratégie parallèle appropriée après un débogage continu en fonction des caractéristiques du modèle, des caractéristiques du matériel utilisé et du processus de calcul intermédiaire.

2.3.3 Faire bon usage de la "sparseness"

Lors de la formation du modèle, il est également nécessaire de faire bon usage de la parcimonie, c'est-à-dire que tous les neurones ne doivent pas être "activés" - c'est-à-dire que lors de l'ajout de données de formation, tous les paramètres du modèle ne doivent pas être mis à jour en fonction des données nouvellement ajoutées , mais certains paramètres du modèle restent inchangés et certains paramètres du modèle sont mis à jour avec des données nouvellement ajoutées.

Un bon traitement parcimonieux peut assurer l'efficacité de la formation du modèle tout en maintenant la précision.

Par exemple, dans une tâche de perception, lorsque de nouvelles images arrivent, vous pouvez sélectionner les paramètres qui doivent être mis à jour en fonction de ces images, afin d'effectuer une extraction de caractéristiques de manière ciblée.

2.3.4 Traitement unifié des informations de base

De manière générale, plusieurs modèles sont utilisés au sein de l'entreprise et ces modèles peuvent utiliser les mêmes données.Par exemple, la plupart des modèles utilisent des données vidéo. Si chaque modèle charge et traite les données vidéo, il y aura beaucoup de calculs répétés. Nous pouvons traiter les informations dans diverses modalités, telles que la vidéo, le nuage de points, la carte et le signal CAN, qui sont requises par la plupart des modèles, afin que différents modèles puissent réutiliser les résultats du traitement.

2.3.5 Optimiser la configuration matérielle

Lors de l'utilisation réelle de la formation distribuée, 1 000 machines peuvent être utilisées.Comment obtenir les résultats intermédiaires du processus de formation à partir de différents serveurs qui stockent des données, telles que des gradients, puis effectuer une formation distribuée à grande échelle est un grand défi.

Pour relever ce défi, nous devons d'abord considérer comment configurer le CPU, le GPU, etc., comment choisir la carte réseau et la vitesse de la carte réseau, afin que la transmission entre les machines puisse être rapide.

Deuxièmement, il est nécessaire de synchroniser les paramètres et de sauvegarder les résultats intermédiaires, mais lorsque l'échelle est grande, cette question deviendra très difficile, ce qui impliquera un travail de communication en réseau.

De plus, l'ensemble du processus de formation prend beaucoup de temps, la stabilité du cluster doit donc être élevée.

3. Est-il judicieux de continuer à augmenter les paramètres du modèle ?

Maintenant que le grand modèle a pu jouer un certain rôle dans le domaine de la conduite autonome, si nous continuons à augmenter les paramètres du modèle, pouvons-nous nous attendre à ce que le grand modèle montre des effets étonnants ?

Selon les résultats de la communication de l'auteur avec des experts en algorithmes dans le domaine de la conduite autonome, la réponse actuelle est probablement non, car le phénomène "d'émergence" mentionné ci-dessus n'est pas encore apparu dans le domaine de la CV (vision par ordinateur). À l'heure actuelle, la quantité de paramètres de modèle que tout le monde utilise dans le domaine de la conduite autonome est bien inférieure à celle de ChatGPT. Car lorsqu'il n'y a pas d'effet « émergence », la relation entre l'amélioration des performances du modèle et l'augmentation du nombre de paramètres est à peu près linéaire : compte tenu des contraintes de coût, les entreprises n'ont pas encore maximisé le nombre de paramètres dans le modèle.

Pourquoi n'y a-t-il pas encore eu de phénomène "d'émergence" dans la vision par ordinateur ? Un expert a expliqué :

Tout d'abord, bien qu'il y ait beaucoup plus de données visuelles que de données textuelles dans ce monde, les données d'image sont rares, c'est-à-dire que la plupart des photos peuvent ne pas avoir beaucoup d'informations efficaces et que la plupart des pixels de chaque image ne fournissent pas d'informations efficaces. Si nous prenons un selfie, à l'exception du visage au milieu, la zone d'arrière-plan n'a aucune information valide.

Deuxièmement, les données d'image souffrent d'une variation d'échelle importante et sont complètement non structurées. Le changement d'échelle signifie que les objets contenant la même sémantique peuvent être grands ou petits dans l'image correspondante. Par exemple, j'ai pris un selfie puis j'ai demandé à un ami qui était plus loin de me prendre en photo. Sur les deux photos, la proportion du visage sur la photo était très différente. Non structuré signifie que la relation entre chaque pixel est incertaine.

Mais dans le domaine du traitement du langage naturel, parce que le langage est un outil de communication entre les personnes, le contexte est généralement lié, et la densité d'information de chaque phrase est généralement importante, et il n'y a pas de problème de changement d'échelle. n'importe quelle langue, le mot "pomme" n'est généralement pas très long.

Par conséquent, la compréhension des données visuelles elles-mêmes sera plus difficile que le langage naturel.

Un expert de l'industrie a déclaré à l'auteur : Bien que nous puissions nous attendre à ce que les performances du modèle augmentent à mesure que le nombre de paramètres augmente, il est actuellement moins rentable de continuer à augmenter le nombre de paramètres.

Par exemple, si nous multiplions par dix la capacité du modèle sur la base existante, son taux d'erreur relatif peut être réduit de 90 %. À ce stade, le modèle peut déjà effectuer certaines tâches de vision par ordinateur telles que la reconnaissance faciale. Si, à ce stade, nous continuons à multiplier par dix la capacité du modèle et que le taux d'erreur relatif continue de baisser de 90 %, mais que la valeur qu'il peut réaliser n'augmente pas de dix fois, nous n'avons pas besoin de continuer à augmenter la capacité du modèle.

L'extension de la capacité du modèle augmentera le coût, car un modèle plus grand nécessite plus de données de formation et plus de puissance de calcul. Lorsque la précision du modèle atteint la plage acceptable, nous devons faire un compromis entre l'augmentation du coût et l'augmentation de la précision, et réduire le coût autant que possible sous la condition d'une précision acceptable en fonction des besoins réels.

Bien qu'il y ait encore certaines tâches dont nous avons besoin pour améliorer la précision, le grand modèle consiste principalement à remplacer certains travaux manuels dans le cloud, tels que l'étiquetage automatique, l'exploration de données, etc. qui peuvent être effectués par des humains. Si le coût est trop élevé, alors les comptes économiques seront « submergés ».

Cependant, certains experts de l'industrie ont déclaré à l'auteur : Bien que le point de changement qualitatif n'ait pas encore été atteint, à mesure que les paramètres du modèle augmentent et que la quantité de données augmente, nous pouvons en effet observer que la précision du modèle s'améliore. L'amélioration de la précision du modèle peut alimenter l'étiquetage automatique. La précision du modèle utilisé pour les tâches d'étiquetage est suffisamment élevée et le travail d'étiquetage peut réduire considérablement la main-d'œuvre. Bien que le coût de la formation augmente à mesure que la taille du modèle augmente, le coût actuel et le nombre de paramètres du modèle sont fondamentalement linéaires. La réduction de la main-d'œuvre peut compenser l'augmentation des coûts de formation, donc globalement, augmenter le nombre de paramètres est toujours bénéfique.

De plus, lorsque le nombre de paramètres du modèle augmente, nous adopterons également certaines méthodes pour améliorer l'efficacité de la formation et réduire autant que possible les coûts de formation. Sous l'échelle du modèle existant, nous pouvons essentiellement augmenter le nombre de paramètres du modèle et améliorer la précision du modèle tout en maintenant le coût pratiquement inchangé. Cela équivaut à faire en sorte que le coût du modèle n'augmente pas linéairement avec l'augmentation des paramètres du modèle, et nous pouvons obtenir presque aucune ou seulement une petite augmentation du coût.

4. Autres applications possibles des grands modèles

En plus des applications citées ci-dessus, comment découvrir la valeur des grands modèles ?

4.1

dans le domaine de la perception

Max, chercheur à la CMU, a déclaré à l'auteur : pour utiliser de grands modèles pour réaliser des tâches de perception, l'essentiel n'est pas d'empiler des paramètres, mais de créer un cadre qui peut être une « boucle interne ». Si l'ensemble du modèle ne peut pas réaliser de boucles internes, ou ne peut pas réaliser de formation continue en ligne, il sera difficile d'obtenir de bons résultats.

Alors, comment réaliser la "boucle interne" du modèle ? Nous pouvons nous référer au cadre de formation de ChatGPT, comme indiqué dans la figure ci-dessous.

168f816f164bd4771bc4a977b5cf969f.png

△ Cadre de formation ChatGPT, la photo est tirée du site officiel d'Open AI

Le cadre du modèle de ChatGPT peut être divisé en trois étapes : la première étape est l'apprentissage supervisé, les ingénieurs collectent et étiquettent d'abord une partie des données, puis utilisent cette partie des données pour former le modèle ; la deuxième étape consiste à concevoir une récompense modèle (modèle de récompense), le modèle Vous pouvez produire vous-même certains résultats d'étiquetage ; dans la troisième étape, nous pouvons réaliser un apprentissage auto-supervisé par un chemin similaire à l'apprentissage par renforcement, appelé "jouer avec soi-même" dans un langage plus populaire, ou "boucle interne" .

Tant que la troisième étape est atteinte, le modèle n'a plus besoin d'ingénieurs pour ajouter des données marquées, mais peut calculer la perte par lui-même après avoir obtenu les données non étiquetées, puis mettre à jour les paramètres, de sorte que le cycle continue, et enfin la formation est complété.

"Si nous pouvons concevoir une politique de récompense appropriée lors des tâches de perception, de sorte que la formation du modèle ne dépende plus de données étiquetées, on peut dire que le modèle a réalisé une 'boucle interne' et peut continuellement mettre à jour les paramètres basés sur des données non étiquetées."

4.2

dans le domaine de la planification

Dans des domaines comme le Go, il est plus facile de juger si chaque étape est bonne ou mauvaise, car notre objectif ne consiste généralement qu'à gagner le jeu à la fin.

Cependant, dans le domaine de la planification de la conduite autonome, le système d'évaluation humaine du comportement présenté par le système de conduite autonome n'est pas clair. En plus d'assurer la sécurité, chacun ressent différemment le confort, et nous pouvons également vouloir arriver à destination le plus rapidement possible.

Dans la scène du chat, savoir si le feedback donné par le robot est "bon" ou "mauvais" à chaque fois n'a pas de système d'évaluation très clair comme Go. La conduite personnalisée est similaire à cela, chacun a des critères différents pour "bon" et "mauvais", et il ou elle peut aussi avoir des besoins difficiles à articuler.

Dans la deuxième étape du cadre de formation ChatGPT, l'annotateur trie les résultats générés par le modèle, puis utilise les résultats triés pour former le modèle de récompense. Au début, ce modèle de récompense n'est pas parfait, mais nous pouvons faire en sorte que ce modèle de récompense continue d'approcher l'effet que nous voulons grâce à une formation continue.

Un expert d'une société d'intelligence artificielle a déclaré à l'auteur : dans le domaine de la planification de la conduite autonome, nous pouvons collecter en continu des données sur la conduite automobile, puis indiquer au modèle quand les gens prendront le relais (c'est-à-dire que les gens se sentiront dangereux) et quelles situations Si vous pouvez conduire normalement, le modèle de récompense se rapprochera de plus en plus de la perfection à mesure que la quantité de données augmentera.

C'est-à-dire que l'on peut envisager de renoncer à écrire explicitement un Modèle de Récompense parfait, mais en donnant continuellement des retours au modèle pour obtenir une solution qui se rapproche constamment de la perfection.

Par rapport à la pratique courante actuelle dans le domaine de la planification, c'est-à-dire essayer de trouver explicitement la solution optimale en écrivant manuellement des règles, adopter d'abord un modèle de récompense initial puis l'optimiser en continu en fonction des données est un changement de paradigme.

Après avoir adopté cette méthode, le module de planification d'optimisation peut adopter un processus relativement standard. Tout ce que nous avons à faire est de collecter en continu des données, puis de former le modèle de récompense, qui ne repose plus sur la compréhension d'un ingénieur de l'ensemble du module de planification comme la méthode traditionnelle. profondeur.

De plus, toutes les données historiques peuvent être utilisées pour la formation. Nous n'avons pas à nous soucier de certains problèmes qui ont été résolus avant de réapparaître après la modification d'une certaine règle. Si la méthode traditionnelle est adoptée, nous pouvons être troublés par ce genre de problème.

FIN


7d27ad71dfbcfb858291a749a4f472a8.png

Groupe de communication |   Entrez "groupe de capteurs/groupe de châssis de planche à roulettes/groupe de logiciels de base de voiture/groupe de contrôleur de domaine", veuillez scanner le code QR ci-dessus, ajoutez Jiuzhang Assistant , assurez-vous de noter le nom du groupe de communication + nom réel + société + position (pas de remarques Impossible de passer la vérification d'ami) 

écrire à la fin

communiquer avec l'auteur

Si vous souhaitez communiquer directement avec l'auteur de l'article, vous pouvez scanner directement le code QR à droite et ajouter le propre WeChat de l'auteur.

   7b8766a2ca14728cc08ca5e9bc035b13.png

Remarque : Assurez-vous de noter votre vrai nom, votre entreprise et votre poste actuel lors de l'ajout de WeChat, merci !

À propos de la contribution

Si vous êtes intéressé à contribuer à "Nine Chapters Smart Driving" (articles de type "accumulation et tri des connaissances"), veuillez scanner le code QR à droite et ajouter le personnel WeChat.

64e5fb816bd0f46bb38b938165deb258.jpeg

Remarque : Assurez-vous de noter votre vrai nom, votre entreprise et votre poste actuel lors de l'ajout de WeChat, merci !


Exigences de qualité pour les manuscrits « d'accumulation de connaissances » :

R : La densité d'informations est supérieure à la plupart des rapports de la plupart des maisons de courtage, et n'est pas inférieure au niveau moyen de « Neuf chapitres pour une conduite intelligente » ;

B : L'information doit être très rare, et plus de 80% de l'information doit être invisible sur les autres médias, si elle est basée sur une information publique, elle doit avoir un point de vue particulièrement puissant et exclusif. Merci de votre compréhension et de votre soutien.

Lecture recommandée:

Neuf chapitres - une collection d'articles en 2022

"Même si les salaires ne peuvent pas être payés un jour, certaines personnes resteront." —— Bilan du deuxième anniversaire de l'entreprise de Jiuzhang Zhijia (Partie 1)

"Votre budget est trop élevé, nous ne pouvons donc pas coopérer" - Examen du 2e anniversaire de Jiuzhang Zhijia (Partie 2)

Quelle est l'architecture électrique et électronique complète basée sur la SOA ?

Application de l'algorithme d'apprentissage en profondeur dans la régulation et le contrôle de la conduite automatique

Défis et aube du passage du contrôle des câbles à la production de masse et à l'utilisation commerciale

"Soyez gourmands quand les autres ont peur", ce fonds permettra d'augmenter l'investissement dans la "Conduite Automatique Hiver"

Je suppose que tu aimes

Origine blog.csdn.net/jiuzhang_0402/article/details/130939716
conseillé
Classement