Comment l'apprentissage automatique peut aider à résoudre les problèmes de conversion et de gestion des mégadonnées

　　Bien que la technologie d'analyse des mégadonnées ait fait des progrès incroyables, nous devons encore effectuer manuellement des tâches importantes, telles que la conversion et la gestion des données. À mesure que la quantité de données augmente, l'écart entre la productivité des tâches manuelles et l'automatisation augmente, ce qui rend la tendance de l'automatisation basée sur l'intelligence artificielle et l'apprentissage automatique de plus en plus commercialisable. L'apprentissage automatique peut-il aider à combler cet écart?

　　Franchement, les problèmes de conversion et de gestion des données sont assez difficiles. Les entreprises de tous horizons souhaitent combiner l'apprentissage automatique avec leurs bases de données pour obtenir un avantage concurrentiel. Cependant, des problèmes de données tels que les données impures, les données non intégrées, les données incomparables et inégalées émergent, et le plan Big Data de l'entreprise est en difficulté.

　　De nombreux scientifiques des données impliqués dans l'apprentissage automatique passent 90% de leur temps à rechercher, intégrer, réparer et nettoyer leurs données d'entrée. Les gens ne semblent pas réaliser que les scientifiques des données ne sont plus des scientifiques des données, mais sont devenus des intégrateurs de données.

　　Mais il y a aussi de bonnes nouvelles, l'apprentissage automatique lui-même peut aider l'apprentissage automatique. L'idée est d'utiliser la puissance prédictive des algorithmes pour simuler le traitement des données humaines. Ce n'est pas une solution parfaite à 100%, mais elle peut aider à réduire l'intensité du travail et permettre aux scientifiques des données de se tourner vers un travail vraiment innovant.

　　Vous pouvez acheter ML partout où vous le pouvez et utiliser ML pour vous aider à terminer la partie conversion d'ETL.

　　Transformez et gérez les données

　　Bien qu'ils soient similaires à certains égards, il existe des différences importantes entre la gestion et la conversion des données. La conversion des données est la première étape du processus d'intégration des données. Son objectif est de transformer les données hétérogènes en un modèle mondial universel que les organisations peuvent formuler à l'avance. Les scripts automatisés sont souvent utilisés pour convertir des dollars américains en euros ou des livres en kilogrammes.

　　Après la phase de conversion, l'analyste commence à gérer et analyser les données. La première étape consiste généralement à exécuter la fonction "correspondance / fusion" pour créer un cluster d'enregistrements correspondant à la même entité, comme le regroupement de noms différents mais orthographiés de manière similaire. Des concepts comme «modifier la distance» peuvent être utilisés pour déterminer la distance entre deux entités différentes.

　　Utilisez ensuite plus de règles pour comparer différentes entités afin de déterminer la meilleure valeur pour un enregistrement donné. L'entreprise peut déclarer que le dernier élément est le meilleur ou utiliser une valeur commune dans un ensemble de valeurs, afin de produire les meilleures données.

　　Pendant des décennies, ce processus en deux étapes commun a été utilisé dans de nombreux entrepôts de données et continue d'être utilisé dans les lacs de données modernes. Cependant, l'ETL et la gestion des données n'ont pas réussi à suivre le volume de données actuel et l'ampleur des défis auxquels sont confrontées les entreprises.

　　Par exemple, cela nécessite qu'un modèle global soit défini à l'avance, ce qui empêche de nombreux ETL de continuer, et ces efforts tentent d'intégrer davantage de sources de données. Dans certains cas, les programmeurs ne peuvent pas suivre le nombre de règles de conversion de données qui doivent être définies.

　　Si vous avez 10 sources de données, vous pouvez toujours le faire, mais si vous en avez 10 000, c'est peu probable.

　　De toute évidence, cela nécessite une approche différente.

　　Dans une petite entreprise, vous pouvez peut-être créer un schéma de données global à l'avance, puis le forcer à être utilisé dans toute l'organisation, éliminant ainsi le coût des projets coûteux d'ETL et de gestion des données et les regroupant dans l'entrepôt de données. Cependant, dans les grandes organisations, cette approche descendante échouera inévitablement.

　　Même si les unités commerciales des grandes entreprises sont très similaires les unes aux autres, il y aura de légères différences dans la façon dont elles enregistrent les données. Ces petites différences doivent être prises en compte avant de pouvoir être analysées de manière significative, ce qui n'est que le reflet de la nature des données d'entreprise.

　　Par conséquent, la flexibilité de l'entreprise nécessite un certain degré d'indépendance, ce qui signifie que chaque unité commerciale crée son propre centre de données.

　　Par exemple, prenons l'exemple de Toyota Motor Europe: la société dispose d'une organisation d'assistance clientèle indépendante dans chaque pays. L'entreprise souhaite créer un fichier maître pour toutes les entités dans 250 bases de données, qui contient 30 millions d'enregistrements dans 40 langues différentes.

　　Le problème auquel Toyota Motor Europe est confronté est que l'ampleur des projets ETL et de gestion des données est énorme, et si elle est réalisée de manière traditionnelle, elle consommera beaucoup de ressources. L'entreprise a décidé d'utiliser Tamr pour aider à résoudre les défis de l'apprentissage automatique au lieu de la conversion des données et de l'utilisation des processus de gestion des données.

　　Le plus gros problème avec ETL est que le modèle global a été prédéfini. Comment le faire à grande échelle est un problème. Il est nécessaire d'utiliser l'apprentissage automatique pour l'appariement ascendant et la construction ascendante des modèles cibles. Du point de vue de l'échelle, c'est le seul moyen possible.

　　Cela ne signifie pas que l'apprentissage automatique offre un moyen très simple de résoudre ces problèmes d'intégration de données difficiles. Cela nécessite toujours beaucoup de données et de puissance de traitement. Vous avez généralement besoin d'un des meilleurs employés pour aider le logiciel à obtenir les résultats d'analyse de données et les décisions nécessaires.

　　De ce point de vue, le coût n'est pas bon marché, mais ce n'est pas le plus important. Mais il reste une question sur la façon de choisir entre différents fournisseurs. Les fournisseurs de différents pays ou régions proposent des solutions différentes et pour certains macro-facteurs, différentes options apparaissent.

　　Pour des raisons de sécurité, ces problèmes de données ne peuvent pas être entièrement sous-traités à d'autres entreprises, donc ne vous attendez pas à utiliser le machine learning pour traiter complètement les données. Le rôle des gens est toujours très important. Seuls l'apprentissage humain et automatique peuvent maximiser votre efficacité d'intégration et de gestion des données.

Comment l'apprentissage automatique peut aider à résoudre les problèmes de conversion et de gestion des mégadonnées

Je suppose que tu aimes