Comment créer des données d'IA de la plus haute qualité du secteur? Démystifier la méthode gagnante des données de test cloud

Texte | Ye Yuanfeng

Source | Relativité intelligente (aixdlun)

Dans le contexte de la mise en œuvre accélérée de l'IA, en tant qu'élément important de la mise en œuvre de l'industrie de l'intelligence artificielle, l'étiquetage des données de l'IA a attiré de plus en plus l'attention de l'industrie et subit de grands changements.

Lors de la récente conférence sur le commerce des services, le leader des données de mesure du cloud d'entreprise dans le domaine de l'étiquetage des données a publié une norme pour la première fois. La précision de livraison la plus élevée de son projet de données AI a atteint 99,99%, ce qui est un nouveau record du secteur. À cet égard, certains auto-médias "Zeng Ringing" ont fait remarquer que l'étiquetage des données de l'IA est passé de l'ère "à forte intensité de main-d'œuvre" à "à forte intensité de compétences".

Dans l'industrie des données IA, la précision des données = quantité acceptée / quantité totale, ce qui signifie qu'une précision extrêmement élevée répond non seulement à certaines normes objectives, mais doit également être en profondeur avec les besoins de la partie du projet IA et passer le processus d'acceptation basé sur la demande.

En fait, pour l'étiquetage des données d'IA, qui est similaire à la fabrication dans de nombreux endroits, le processus de création d'une plus grande précision est tout comme la «fabrication sans gaspillage» dans la fabrication, et il est compatible avec les méthodes de développement dans de nombreux aspects. , C’est juste un pour fournir des services de données et un pour produire des produits physiques.

Cette adéquation, du point de vue des actions des grandes entreprises du secteur, comprend quatre aspects.

Plateforme commerciale: en réponse au transfert et aux opérations complexes de données d'IA, un «pipeline» d'automatisation en ligne apparaît

La fabrication au plus juste dans l'industrie manufacturière est avant tout l'automatisation et la mise à niveau intelligente de la «chaîne de montage», l'introduction d'outils ou de machines plus sophistiqués et la fourniture d'une base d'environnement de production pour le polissage au plus juste des produits.

L'étiquetage des données est similaire. De plus en plus de plates-formes commerciales étendues sont incapables d'entreprendre des opérations et des transferts de données d'IA complexes. Dans ce contexte, des «pipelines» automatisés en ligne ont commencé à apparaître.

Dans le passé, les traces «hors ligne» du processus d'étiquetage des données étaient fortes, en particulier le «mode brut» de l'importation et de l'exportation des données, de la copie sur disque dur et du transfert de temps en temps.

Afin d'améliorer l'efficacité et la sécurité et d'obtenir une connexion transparente dans un court laps de temps, les entreprises représentées par des données de mesure du cloud ont exploré un modèle de plate-forme commerciale «pipeline» en ligne. Plus précisément, selon le processus de traitement des données de l'entreprise d'IA, terminez l'intégration du processus de l'interface API normalisée, les données sont accessibles en ligne et le travail est sorti en ligne après l'achèvement du travail. Type et méthode d'étiquetage.

Image 1.png

Ce processus correspond à l'industrie manufacturière, qui est en fait le processus consistant à "entrer les matériaux, trouver la ligne appropriée parmi les nombreuses lignes de production et organiser les travailleurs de la production et la production des produits". En ligne, l'annotation de données a permis d'obtenir un processus de connexion transparent sur le cloud de saisie, d'annotation et de livraison de données.

Parmi eux, la valeur la plus évidente de l'étiquetage des données «Lean Manufacturing» peut être l'optimisation des «outils de production», et l'amélioration des capacités des outils a grandement amélioré l'efficacité et la précision de l'étiquetage des données, qui est comme un bras robotisé automatisé avec des fonctions riches sur une ligne d'assemblage. Peut aider les entreprises à améliorer considérablement leur efficacité et leur qualité.

L'outil développé par les entreprises représentées par des données de mesure dans le cloud est un cas. À l'heure actuelle, la valeur des outils pour l'annotation des données se manifeste par les trois manifestations suivantes:

Le premier est l'assistance opérationnelle directe, comme l'étiquetage des points clés du visage à 26 points, 54 points, 96 points et 206 points sur le visage, et le suivi de points clés de mission spécifiques avec un degré d'ajustement inférieur à 3 pixels, ce qui rend le fonctionnement de l'annotateur. Il peut être plus raffiné et a une bonne efficacité.

La seconde est l'assistance au fonctionnement de données spéciales. Par exemple, les données de nuage de points 3D formées par le lidar en conduite autonome sont différentes des données d'image 2D formées par la caméra. Il est plus difficile à étiqueter et plus susceptible d'être biaisé. À ce stade, l'outil d'étiquetage de fusion (nuage de points 3D La valeur des données de nuage et des données d'image 2D combinées ensemble pour comparer) est reflétée.

Le troisième est la garantie de correction des erreurs de l'étiquetage des données, qui est similaire à l'inspection automatique de la qualité de la machine avant l'inspection manuelle de la qualité en «Lean Manufacturing». Pendant le processus d'étiquetage des données, l'outil définit des règles de vérification des erreurs en fonction des besoins du projet d'IA pour garantir l'exactitude de l'étiquetage ( Par exemple, il serait erroné d'étiqueter un objet de trois mètres de haut comme un corps humain)

Bien entendu, l'inspection de la qualité des outils n'est qu'une aide, et l'inspection manuelle de la qualité (inspection par échantillonnage) est également indispensable dans le processus de «fabrication allégée» de l'étiquetage des données. Les données de test dans le cloud réalisent non seulement la standardisation et la scientification du processus d'étiquetage, mais conçoivent également le processus de gestion depuis la création de tâches, l'attribution de tâches et l'étiquetage jusqu'à l'acceptation finale.

Opération de données: en réponse à la demande en profondeur d'atterrissage IA, il existe une opération raffinée comme la "technologie des données"

Le processus de production est l'un des cœurs du «lean manufacturing»: meilleur est le processus, meilleure est la qualité des produits et meilleur est le droit de parole sur le marché. Sur la base de l'environnement de production «pipeline», avec l'approfondissement de la demande d'atterrissage IA, l'étiquetage des données IA a commencé à ressembler au processus d'exploitation raffiné que l'on peut appeler «technologie des données», la précision de 99,99% elle-même est le résultat de la «technologie des données» .

Dans les opérations quotidiennes des données d'enquête sur le cloud, vous pouvez trouver de nombreuses pratiques semblables à celles des "data craft", telles que des types d'étiquetage de données plus riches, et les objets d'étiquetage simples tels que les "segments de ligne" sont également divisés en polylignes, courbes et coques. Courbe Sel etc.

En outre, tout comme l'industrie manufacturière continue d'accumuler l'expérience des processus et de mettre progressivement à niveau le niveau des processus pour produire des produits de plus haut niveau, l'étiquetage des données comporte également un processus d'accumulation d'expérience pour améliorer le niveau de "traitement des données". Par exemple, un grand nombre d'industries du secteur semblent être similaires. Pour l'étiquetage des pièces, deux vis avec des modèles similaires peuvent être distinguées à un niveau plus détaillé; un grand nombre de SKU similaires dans le secteur de la vente au détail doivent être étiquetés sous différents angles détaillés tels que la marque et l'étiquette pour faciliter l'identification de l'algorithme.

En général, la demande complexe de données IA est la cause directe du développement de l'annotation des données dans le sens de la «technologie des données».

Les données actuelles de l'IA présentent trois caractéristiques. Premièrement, la complexité des scènes d'atterrissage des produits d'IA entraîne une diversification des exigences de la scène des données, telles que l'intensité lumineuse, l'angle de prise de vue, les exigences de bruit, à l'intérieur et à l'extérieur, etc.; deuxièmement, des données similaires montrent la diversité des échantillons , Les données sonores seules peuvent inclure des différences d'âge, de sexe, d'accent, etc.; la troisième est les données multidimensionnelles pour la même cible d'application, par exemple, la conduite intelligente peut nécessiter des données générées par différents capteurs tels que des caméras, un lidar et un radar à ultrasons en même temps.

De toute évidence, dans ce contexte, l'application directe ou l'achat d'ensembles de données finis aux premiers stades du développement de l'IA ne fonctionnera pas. Ils peuvent aider l'algorithme à se façonner rapidement, mais il est difficile de prendre en charge des besoins d'atterrissage d'IA plus diversifiés.

Par conséquent, la demande d'étiquetage des données pour des opérations raffinées telles que la «technologie des données» dépasse naturellement le champ d'activité de l'étiquetage purement des données, et le lien clé de la collecte de données en amont doit être intégré. On peut voir que les entreprises représentées par les données de mesure du cloud améliorent vigoureusement leur capacité à collecter des données de scène. Aidez les clients à restaurer les données d'IA requises par la scène d'atterrissage et assurez la qualité des données d'IA de la source, afin d'être mieux appliquées à l'atterrissage en profondeur de l'industrialisation de l'IA.

Peut-être pour cette raison, on peut voir que si les données de mesure du cloud ont dégagé la précision de livraison de projet la plus élevée de 99,99%, afin de s'adapter à la scène réelle et d'aider plus d'industries à réaliser des «produits d'IA plus rapides et mieux atterrir», le cloud Combinant ses propres capacités de service et son expertise du secteur, les données de mesure ont également lancé la «solution de service de données de formation AI» dans quatre scénarios: ville intelligente, maison intelligente, conduite intelligente et finance intelligente.

Dans ces solutions de données d'IA de scène qui intègrent la collecte et l'annotation de données, des traces plus évidentes de «technologie des données» peuvent être trouvées.

Par exemple, dans les scènes extérieures, les caméras incluent une grande quantité de données sur les scènes de route telles que les piétons, les véhicules à moteur et les vélos, mais les applications d'IA dans les villes intelligentes peuvent avoir besoin d'identifier des données de scène à longue traîne telles que la détection de flux de piétons et les urgences.

Image 2.png

Dans la solution de ville intelligente de données de mesure dans le cloud, le premier laboratoire de scènes de données du secteur est utilisé pour restaurer et créer des scènes réelles, qui sont utilisées pour collecter des données de scène à longue traîne, telles que la détection de personnel sous une variété de lumières différentes, la détection de mouvement dangereux, etc.

Il existe des scénarios similaires pour la conduite intelligente. La conduite intelligente nécessite une grande quantité de données de scènes réelles pour la formation des algorithmes. Afin d'assurer la sécurité de conduite, elle doit couvrir un grand nombre de données de scènes à longue traîne, telles que les piétons tenant des parapluies, les animaux domestiques qui apparaissent soudainement, etc. Après l'épidémie, portez des masques Les piétons sont également un autre type de «données de scénario AI» nécessaires à la perception de l'environnement extérieur.

Image 3.png

En termes de détails, il répond aux besoins de données IA plus complexes et plus approfondies, et fournit des capacités d'acquisition de données IA uniques et irremplaçables, qui aideront l'annotation des données à continuer à gagner un statut industriel plus élevé.

Construction de la main-d'œuvre: en réponse à une «technologie de données» de haute précision, des «formateurs d'intelligence artificielle» professionnels émergent

Après la base de production de la «chaîne de montage» plus une technologie de production plus élevée, le test de la «fabrication sans gaspillage» est de savoir si les travailleurs industriels peuvent réaliser la capacité du processus. Sous la vague de modernisation industrielle, la qualité des travailleurs industriels est devenue «fabrication sans gaspillage». Un des facteurs clés.

La cartographie aux annotations de données, afin de traiter la «technologie des données» de haute précision, des «formateurs d'intelligence artificielle» professionnels ont commencé à apparaître, ce qui s'est manifesté sous trois aspects.

Le premier est la formation systématique des talents. L'ensemble des compétences, du professionnalisme, des connaissances du domaine et de la qualité du personnel s'améliorent.

Prenons l'exemple des données de test cloud. Les données de test cloud fournissent non seulement une formation préalable à l'emploi, mais comprennent également la formation professionnelle des employés, la formation fonctionnelle, la connaissance du domaine de l'industrie, la formation aux responsabilités, la formation au contenu marqué et la communication continue individuelle pour améliorer les capacités des employés. En même temps, il est équipé d'un système de notation en ligne et systématique pour évaluer les capacités des employés.

Dans le passé, la méthode d'étiquetage des données consistant à tirer au hasard certaines personnes dans la rue ou à l'école, tant qu'elles reconnaissent les images et comprennent la grammaire et l'orthographe de base, a commencé à fonctionner, n'a plus aucune compétitivité.

Deuxièmement, des «échelons de talents» correspondant à différents besoins ont commencé à apparaître.

À cet égard, tout comme les produits plus complexes sont équipés de travailleurs ayant des compétences plus élevées en «lean manufacturing», dans le domaine de l'étiquetage des données, il y a eu une certaine différenciation dans la demande de données, obligeant les entreprises à cultiver des «échelons de talents» dans un certain sens.

Dans des domaines typiques très spécialisés tels que les soins médicaux, le droit, la finance, l'ameublement, etc., qu'il s'agisse de CV ou de PNL, les formateurs en intelligence artificielle doivent être très professionnels pour effectuer une annotation et une interprétation correctes des données. Ce n'est même pas une solution à la formation seule. de. Cloud Test Data a absorbé certains professionnels de l'industrie de la finance et de l'ameublement dans le domaine de la PNL pour améliorer les capacités d'étiquetage des données dans les domaines correspondants. Cela signifie également que l'industrie de l'étiquetage des données a commencé à avoir des exigences concernant la source des talents, et qu'il ne s'agit plus d'une population généralisée. .

Le troisième est la superposition continue d'un grand nombre de détails d'opération et de professionnalisme.

Les ouvriers industriels deviennent des «maîtres», d'une part par les exigences exigeantes du travail, d'autre part par l'accumulation continue d'expériences professionnelles. Cela est également vrai pour l'annotation des données.

Sous la gestion extensive, l'industrie traditionnelle de l'étiquetage des données a un tempérament de drapeau "chaotique", et l'équipe de terrain a fait beaucoup de travail d'étiquetage des données d'une manière stupide. Mais maintenant, sous la bannière de haute précision, la capacité professionnelle de l'équipe du service de données est strictement requise. Dans les données de mesure du cloud, l'étiquetage d'intention d'une seule scène de service client intelligent est divisé en 10 à 20 catégories et des centaines de sous-catégories (la même expression est la même). Une intention, les utilisateurs confrontés à l'algorithme peuvent avoir des expressions différentes, donc plus il y a de subdivision, mieux c'est), et il peut y avoir d'autres subdivisions d'étiquettes en fonction des besoins de l'entreprise.

Cela oblige les annotateurs de données à améliorer leur capacité à juger des intentions de dialogue. Ils doivent généraliser les phrases, réorganiser ou développer les modèles de phrases et les balises dans différentes descriptions (par exemple, si l'utilisateur a simplement manqué le mot ou est mélangé à des dialectes, les données doivent être annotées. Clair, pour que les algorithmes d'IA apprennent).

Sur la base de l'amélioration continue de la qualité globale, les formateurs en intelligence artificielle présentent un gradient plus diversifié, et davantage de talents de labellisation de haute qualité se démarqueront.

Interaction avec la demande: en réponse aux besoins approfondis du projet, un modèle de service professionnel avec une interaction approfondie apparaît

Enfin, l'étape du «lean manufacturing» de l'industrie manufacturière s'accompagne souvent d'une communication approfondie entre le client et le producteur, et le demandeur est profondément impliqué dans la fabrication pour produire des produits plus en phase avec l'intention initiale.

Il s'agit en fait d'un modèle de service professionnel qui prend en charge le «lean manufacturing», et cela est également vrai dans le domaine de l'étiquetage des données. Afin de clarifier la norme de données IA, l'entreprise qui recherche une haute précision dans les données cloud a longtemps exigé des chefs de projet et des parties prenantes du projet IA de communiquer à plusieurs reprises leurs besoins avant le début du projet et de coopérer avec les formateurs du secteur pour organiser une pré-formation pour les étiqueteurs et étiqueter le processus de travail Maintenez la communication et les commentaires en temps réel

Dans cette communication répétée, il y a beaucoup de détails qui affectent la précision du résultat final des données.Par exemple, dans le projet CV, quel type de lumière doit être marqué et défini comme «lumière forte»? Différents demandeurs peuvent avoir des interprétations différentes.

En plus d'une communication claire des normes de données, l'étiquetage des données est désormais plus flexible en termes de méthodes d'exploitation.

En règle générale, dans les scénarios financiers, en raison de la particularité du secteur, en particulier des exigences extrêmement élevées en matière de sécurité des données, en plus de fournir un ensemble de solutions de service de données IA pour le secteur financier qui intègre profondément les propres processus commerciaux de l'entreprise, les entreprises d'étiquetage des données doivent La méthode physique de déploiement et d'exploitation doit être modifiée, comme le déploiement privatisé et les services d'exploitation sur site fournis par les données de mesure du cloud. Dans le cadre de cette méthode de service, la nature de l'étiquetage des données "services d'entreprise" est également plus évidente.

Il convient de souligner qu'en termes de confidentialité et de sécurité des données, Cloud Data a mis en place une série de mesures strictes. L'un des principes fondamentaux est que les données ne seront jamais réutilisées. Lorsque les données sont qualifiées et livrées, les données pertinentes ne seront jamais laissées pour compte et les données pertinentes seront effacées. Deuxièmement, tous les utilisateurs qui collectent des données à partir de données cloud signeront un accord d'autorisation de données pour garantir depuis la source Les données utilisées par l'entreprise pour la formation sont légales et conformes; dans le même temps, une série de processus et de technologies de sécurité des données tels que l'isolation des données et l'assurance qualité sont également mis en place dans les données de test du cloud.

Dans l'ensemble, la mise en œuvre accélérée de l'IA a engendré des exigences de données d'IA plus complexes, ce qui fait que l'étiquetage des données de l'IA qui était quelque peu similaire au processus de `` production au plus juste '' de l'industrie manufacturière est également entré dans le processus de `` fabrication au plus juste '' de l'industrie, en termes d'environnement de production, de normes d'exploitation et de talents. Il y a eu de grands changements dans les modèles de construction et de service. La transformation induite par les données de mesure dans le cloud apporte non seulement une plus grande précision et des données d'IA de meilleure qualité, mais rend également l'industrie de l'étiquetage des données plus importante dans la chaîne industrielle à l'ère de l'IA. L'étiquetage des données est comme une nouvelle infrastructure dans le monde de l'information. Ce n'est que lorsque la pierre angulaire est correctement construite que les gratte-ciel de l'industrie de l'IA peuvent surgir du sol et accélérer l'arrivée de l'intelligence artificielle.

Creusez le puits intelligent et ajoutez vx: zhinengxiaoyan

Ce contenu est l'original [Théorie intelligente de la relativité],

Il ne représente que des vues personnelles. Sans autorisation, personne ne peut l'utiliser de quelque manière que ce soit, y compris la réimpression, l'extraction, la copie ou la création d'images miroir.

Certaines images proviennent d'Internet et la propriété des droits d'auteur n'a pas été vérifiée. Elles ne sont pas destinées à un usage commercial. En cas de violation, veuillez nous contacter.

Relativité intelligente (identifiant WeChat: aixdlun):

• les nouveaux médias de l'industrie de l'IA;

• TOP10 des lauréats du projet Toutiao Qingyun d’aujourd’hui;

• Le top5 mensuel du journal dans la liste des technologies de l'information;

• Articles "occupe" depuis longtemps la liste TOP10 des articles populaires de Titanium Media;

• Auteur de "Cent mille pourquoi de l'intelligence artificielle"

• [Domaines d'intervention clés] Appareils électroménagers intelligents (y compris les appareils blancs, les appareils noirs, les téléphones intelligents, les drones et autres appareils AIoT), la conduite intelligente, l'IA + les soins médicaux, la robotique, l'Internet des objets, l'IA + la finance, l'IA + l'éducation, l'AR / VR, le cloud computing , Les développeurs et les puces et algorithmes derrière eux.

Je suppose que tu aimes

Origine blog.csdn.net/sinat_32970179/article/details/108784664
conseillé
Classement