Premier sommet asiatique en ligne d'Apache : session sur le flux de travail et la gouvernance des données

arrière-plan

Le big data s'est développé depuis 10 ans et a pénétré dans diverses industries.

demande de plus en plus, ce qui rend le big data

Les dépendances entre les entreprises deviennent de plus en plus complexes. En outre, je pense également que les partenaires de données doivent avoir du mal à gérer les données. Couplé aux exigences de l'ère actuelle du cloud natif, comment pouvons-nous gérer les tâches de big data ? une relation meilleure et plus simple et une meilleure mise en œuvre de la gouvernance des données ?

Les projets étroitement liés sous Apache incluent Apache DolphinScheduler, Apache Atlas, Apache Airflow, Apache Oozie et Apache Griffin. De plus, nous avons également invité des partenaires de la communauté Apache Hudi, un cadre de lac de données très populaire, à partager la "Pratique de Dolphin Scheduler basée sur Apache Hudi Data Lake", alors restez à l'écoute. Tout d'abord, permettez-moi de vous présenter l'événement annuel de la Fondation Apache

                   ApacheCon

                                               @Série de conférences mondiales officielles  

ApacheCon est la série de conférences mondiales officielles de l'Apache Software Foundation (ASF), qui se tient chaque année. En tant que fête open source prestigieuse, c'est l'une des conférences les plus attendues de l'industrie open source.

Depuis sa création en 1998, ApacheCon a attiré plus de 350 projets techniques et différentes communautés pour y participer. Il rassemble des experts de l'industrie et des enseignants nationaux et étrangers pour partager les dernières tendances et pratiques technologiques dans le monde et discuter de la "technologie de demain". " ensemble, afin que la majorité des passionnés de technologie voient les dernières tendances et les progrès des différentes frontières technologiques, et améliorent mieux leurs piles technologiques.

Cette année, c'est la première fois que le comité d'organisation organise une conférence ApacheCon en ligne pour la région Asie-Pacifique : ApacheCon Asia. La conférence Asie divisera plus de 140 sujets de la Chine, du Japon, de l'Inde, des États-Unis et d'autres pays en 14 forums, y compris le big data, l'incubateur, l'API/Microservice, Internet, l'intégration et la culture open source.

À propos de Workflow/Data GovernanceWorkflow and Data Governance Forum

La gouvernance des flux de travail et des données planifie et traite le traitement de données complexes de manière ordonnée, et gère et contrôle les métadonnées, les liens sanguins et la qualité des données. Divers projets d'ASF fournissent diverses solutions de flux de travail de données, telles qu'Apache DolphinScheduler, Apache Airflow, Apache Oozie, tandis qu'Apache Atlas et Apache Griffin fournissent diverses métadonnées et gestion de la qualité des données. Dans le thème du workflow et de la gouvernance des données, vous découvrirez non seulement l'expérience pratique des utilisateurs de première ligne dans l'application de ces projets Apache à des projets spécifiques, mais également les dernières avancées en matière d'écologie de ces projets Apache. temps, vous vous réjouirez également de l'avenir de la planification et de la gouvernance des données.

Producteur

Guo Wei  

Membre Apache et Apache DolphinScheduler PMC 

Points saillants de l'ordre du jour des 7 et 8 août

@ Apache  

FLUX DE TRAVAIL/GOUVERNANCE DES DONNÉES

Pratique de l'outil de planification DolphinScheduler chez les opérateurs 

Invité du partage : Wang Xingjie

Heure : 7 août à 13h30

Présentation du sujet :

Nous avons choisi DolphinScheduler, un système de planification open source plus facile à développer, doté d'un bon mécanisme de tolérance aux pannes et doté d'une communauté très active. Nous présenterons l'utilisation des solutions de planification DolphinScheduler dans China Unicom pour faire face à plus de 100 000 tâches de planification quotidiennes.

Présentation de l'invité :

Wang Xingjie

Après avoir obtenu son diplôme en 2014, il a commencé à s'engager dans la recherche et le développement de logiciels, avec 7 ans d'expérience dans la recherche et le développement.Actuellement, il est principalement responsable de la recherche et du développement et de la migration du système de planification de données volumineuses de China Unicom.

Outil massif de planification de tâches complexes -- Apache DolphinScheduler

Invité de partage : Qiang Guo

Heure : 7 août à 14h10

Présentation du sujet :

Apache DolphinScheduler est un outil de planification né du besoin d'une planification stable de tâches massives et complexes.Cette rubrique présentera DolphinScheduler autour de sa stabilité, de sa facilité d'utilisation et d'autres aspects. Dans le même temps, nous apporterons également la conception de l'architecture micro-noyau 2.0. Après la version 2.0, chaque composant de DolphinScheduler sera ouvert sous la forme de SPI, et les utilisateurs pourront rapidement réaliser leurs propres exigences de fonctionnalités sur cette base.

Présentation de l'invité : 

Qiang Guo

Apache DolphinScheduler PMC, ingénieur logiciel senior, doué pour : la communication réseau, le traitement de données volumineuses et l'informatique

Pratique approfondie du flux d'air

Invité de partage : Wu Lian

Heure : 7 août à 14h50

Présentation du sujet :

Sur la base du cas réel de la plate-forme Airflow à Shanghai Shuhe Technology, introduisez la pratique de l'application, de l'exploitation et de la maintenance d'Airflow et du développement personnalisé dans des scénarios complexes :

Défis des scènes complexes : 

  1. Comment garantir une haute disponibilité dans un déploiement distribué inter-cloud ;

  2. Comment prendre en charge efficacement plusieurs types de scénarios de planification ;

  3. Comment assurer la haute disponibilité des travaux ETL ;

  4. Comment s'effectue la gouvernance de la planification ;

  5. Comment atteindre une automatisation maximale ;

En parallèle pour certains besoins métiers :

  1. Les analystes de données ont de nombreux besoins de planification et il est difficile de développer des scripts DAG Python

  2. Le DAG auquel appartient un service ou un individu ne souhaite pas être modifié, visualisé et programmé manuellement par d'autres membres du service ?

  3. La validation en ligne des jobs dans le DAG est peu efficace et lourde en charge de travail, comment gagner en efficacité et éviter certaines opérations non standardisées ?

    Comment le système de messagerie déclenche-t-il des lots de travaux ?

Partagez le plan d'optimisation correspondant : 

  1. Visualisation de la configuration DAG : les paramètres DAG sont configurés sur l'interface et les fichiers DAG sont automatiquement générés en arrière-plan.

  2. Contrôle des autorisations DAG : Autonomisation du DAG par service et DAG, en distinguant la lecture, l'écriture et l'exécution.

  3. Surveillance de la normalisation des travaux : configurez les règles de détection pour surveiller si les travaux sont conformes aux règles et exécutez les invites correspondantes.

  4. Plug-in de déclenchement d'événement : recevez divers messages tels que les tâches de capteur et AMQP, et déclenchez l'exécution de la tâche correspondante.

Présentation de l'invité : 

Wu Lian

Ingénieur en développement de données volumineuses dans les technologies de l'information de Shanghai DataSeed, 2 ans d'expérience dans l'utilisation, la maintenance et le développement du flux d'air, j'ai une compréhension approfondie du flux d'air, j'espère que mon expérience et ma compréhension pourront contribuer à la communauté open source du flux d'air.

Pratique de l'ordonnanceur Dolphin sur un lac de données basé sur Apache Hudi

Invité de partage : Zhao Yuwei

Heure : 7 août à 15h30

Présentation du sujet :

Un lac de données est une plate-forme de gestion de données au niveau de l'entreprise permettant d'analyser différents types de sources de données. L'architecture du lac de données assure l'intégration de plusieurs sources de données et prend en charge plusieurs modèles de données pour garantir l'exactitude des données. Il peut répondre aux besoins d'analyse en temps réel et peut également être utilisé comme entrepôt de données pour répondre aux besoins d'exploration de données par lots. Par conséquent, nous avons besoin d'un système de planification des tâches efficace, stable et facilement évolutif pour coordonner les capacités externes du lac de données, telles que l'ingestion de données, le stockage de données, l'exploration de données, la découverte de données, la gouvernance des données, etc. Ici, je vais expliquer pourquoi nous avons choisi Apache DolphinScheduler comme système de planification des tâches et comment nous permettons aux utilisateurs de données d'interagir facilement avec le lac de données sans avoir à prêter trop d'attention aux détails techniques.

Présentation de l'invité :

Zhao Yuwei

Engagé dans des travaux de développement liés à Hadoop, l'orientation principale actuelle du travail est la recherche et le développement d'un système de planification des tâches.

Évolution de l'architecture d'Apache DolphinScheduler, une plate-forme de planification de flux de travail Big Data de nouvelle génération

Invité de partage : Lidong Dai

Heure : 8 août à 13h30

Présentation du sujet :

Il comprend principalement les six parties suivantes :

Tout d'abord, l'introduction de DolphinScheduler

Deuxièmement, les points faibles de la plate-forme de planification de flux de travail Big Data

Troisièmement, les avantages de DolphinScheduler

Quatrièmement, l'évolution architecturale de la version 1.2 à la version 1.3

Cinquièmement, la feuille de route et la feuille de route de l'architecture 2.0

Enfin, partagez quelques user stories

Présentation de l'invité :

LIDONG DAI

Apache DolphinScheduler PMC Chair & Apache Incubator PMC, plus de 10 ans d'expérience dans le big data, excellent dans la construction et l'optimisation de grandes plateformes de données

Pratique de service de qualité des données basée sur Apache DolphinScheduler

Invité de partage : Sun Chaohe

Heure : 8 août à 14h10

Présentation du sujet :

Ce discours vise principalement à partager les idées de conception, les méthodes de mise en œuvre et la manière d'appliquer les services de qualité des données basés sur DolphinScheduler dans des scénarios réels

Présentation de l'invité : 

Soleil Chaohe

Possède une riche expérience dans le développement de plates-formes de données volumineuses, aime et participe activement à l'open source, et est un contributeur principal du code de DolphinScheduler

Traitement des données dans Kubernetes avec Airflow

Invité de partage : Luan Peng

Heure : 8 août à 14h50

Présentation du sujet :

1. Pourquoi utilisons-nous airflow + K8S

2, débit d'air oa/rbac/web

3. Le flux d'air s'exécute sur docker/docker-compose/k8s

4, opérateur kubernetes de flux d'air

5. plug-in de module de flux d'air k8s

6. mise à jour du flux d'air conviviale

7. Utilisation dans Tencent Music

Présentation de l'invité : 

Luan Peng

Tencent Music Data Center, engagé dans la construction d'une plate-forme d'apprentissage automatique native dans le cloud et de contenu lié à la plate-forme de données

Explication détaillée et planification du flux de travail DolphinScheduler DAG grande division JSON 

Invité de partage : lijinyong

Heure : 8 août à 15h30

Présentation du sujet :

À l'heure actuelle, la définition de processus de DolphinScheduler utilise un grand stockage Json, ce qui n'est pas efficace lorsque la tâche est relativement importante. Je vais présenter notre solution pour résoudre ce problème, qui a également été soumise à Apache DolphinScheduler et sera publiée dans un avenir proche.

Présentation de l'invité : 

Lijinyong

Un contributeur actif à la communauté DolphinScheduler, un activiste open source, travaillant actuellement dans le département Big Data de Zhengcai Cloud, engagé dans le travail d'architecture de plateforme Big Data, doué pour la conception et le développement de plateformes Big Data et d'outils d'entrepôt de données, dépannage en ligne, etc.

Rendez -vous à  Workflow et Data Governance !!!

modalités d'inscription

ApacheCon Asie 2021

6-8 août  

14 forums, 100+ projets techniques

Plus de 140 discours thématiques

Dialogue en ligne avec des experts mondiaux de la technologie et des experts

3 jours d'événement d'échange par tous les temps

Libre d'assister

La première conférence virtuelle en ligne d'ApacheCon Asia

6-8 août 2021

dans l'attente de l'arrivée des amis

Cliquez sur le texte original pour vous inscrire

ApacheCon Asie 2021

https://www.apachecon.com/acasia2021/

Cliquez pour lire le texte original, vous pouvez vous inscrire , l'allumer et regarder, vous êtes le meilleur

Je suppose que tu aimes

Origine blog.csdn.net/DolphinScheduler/article/details/119259610
conseillé
Classement