arrière-plan
Le big data s'est développé depuis 10 ans et a pénétré dans diverses industries.
demande de plus en plus, ce qui rend le big data
Les dépendances entre les entreprises deviennent de plus en plus complexes. En outre, je pense également que les partenaires de données doivent avoir du mal à gérer les données. Couplé aux exigences de l'ère actuelle du cloud natif, comment pouvons-nous gérer les tâches de big data ? une relation meilleure et plus simple et une meilleure mise en œuvre de la gouvernance des données ?
Les projets étroitement liés sous Apache incluent Apache DolphinScheduler, Apache Atlas, Apache Airflow, Apache Oozie et Apache Griffin. De plus, nous avons également invité des partenaires de la communauté Apache Hudi, un cadre de lac de données très populaire, à partager la "Pratique de Dolphin Scheduler basée sur Apache Hudi Data Lake", alors restez à l'écoute. Tout d'abord, permettez-moi de vous présenter l'événement annuel de la Fondation Apache ApacheCon
@Série de conférences mondiales officielles
ApacheCon est la série de conférences mondiales officielles de l'Apache Software Foundation (ASF), qui se tient chaque année. En tant que fête open source prestigieuse, c'est l'une des conférences les plus attendues de l'industrie open source.
Depuis sa création en 1998, ApacheCon a attiré plus de 350 projets techniques et différentes communautés pour y participer. Il rassemble des experts de l'industrie et des enseignants nationaux et étrangers pour partager les dernières tendances et pratiques technologiques dans le monde et discuter de la "technologie de demain". " ensemble, afin que la majorité des passionnés de technologie voient les dernières tendances et les progrès des différentes frontières technologiques, et améliorent mieux leurs piles technologiques.
Cette année, c'est la première fois que le comité d'organisation organise une conférence ApacheCon en ligne pour la région Asie-Pacifique : ApacheCon Asia. La conférence Asie divisera plus de 140 sujets de la Chine, du Japon, de l'Inde, des États-Unis et d'autres pays en 14 forums, y compris le big data, l'incubateur, l'API/Microservice, Internet, l'intégration et la culture open source.
À propos de Workflow/Data GovernanceWorkflow and Data Governance Forum
La gouvernance des flux de travail et des données planifie et traite le traitement de données complexes de manière ordonnée, et gère et contrôle les métadonnées, les liens sanguins et la qualité des données. Divers projets d'ASF fournissent diverses solutions de flux de travail de données, telles qu'Apache DolphinScheduler, Apache Airflow, Apache Oozie, tandis qu'Apache Atlas et Apache Griffin fournissent diverses métadonnées et gestion de la qualité des données. Dans le thème du workflow et de la gouvernance des données, vous découvrirez non seulement l'expérience pratique des utilisateurs de première ligne dans l'application de ces projets Apache à des projets spécifiques, mais également les dernières avancées en matière d'écologie de ces projets Apache. temps, vous vous réjouirez également de l'avenir de la planification et de la gouvernance des données.
Producteur
Guo Wei
Membre Apache et Apache DolphinScheduler PMC
Points saillants de l'ordre du jour des 7 et 8 août
@ Apache
FLUX DE TRAVAIL/GOUVERNANCE DES DONNÉES
Pratique de l'outil de planification DolphinScheduler chez les opérateurs
Invité du partage : Wang Xingjie
Heure : 7 août à 13h30
Présentation du sujet :
Nous avons choisi DolphinScheduler, un système de planification open source plus facile à développer, doté d'un bon mécanisme de tolérance aux pannes et doté d'une communauté très active. Nous présenterons l'utilisation des solutions de planification DolphinScheduler dans China Unicom pour faire face à plus de 100 000 tâches de planification quotidiennes.
Présentation de l'invité :
Wang Xingjie
Après avoir obtenu son diplôme en 2014, il a commencé à s'engager dans la recherche et le développement de logiciels, avec 7 ans d'expérience dans la recherche et le développement.Actuellement, il est principalement responsable de la recherche et du développement et de la migration du système de planification de données volumineuses de China Unicom.
Outil massif de planification de tâches complexes -- Apache DolphinScheduler
Invité de partage : Qiang Guo
Heure : 7 août à 14h10
Présentation du sujet :
Apache DolphinScheduler est un outil de planification né du besoin d'une planification stable de tâches massives et complexes.Cette rubrique présentera DolphinScheduler autour de sa stabilité, de sa facilité d'utilisation et d'autres aspects. Dans le même temps, nous apporterons également la conception de l'architecture micro-noyau 2.0. Après la version 2.0, chaque composant de DolphinScheduler sera ouvert sous la forme de SPI, et les utilisateurs pourront rapidement réaliser leurs propres exigences de fonctionnalités sur cette base.
Présentation de l'invité :
Qiang Guo
Apache DolphinScheduler PMC, ingénieur logiciel senior, doué pour : la communication réseau, le traitement de données volumineuses et l'informatique
Pratique approfondie du flux d'air
Invité de partage : Wu Lian
Heure : 7 août à 14h50
Présentation du sujet :
Sur la base du cas réel de la plate-forme Airflow à Shanghai Shuhe Technology, introduisez la pratique de l'application, de l'exploitation et de la maintenance d'Airflow et du développement personnalisé dans des scénarios complexes :
Défis des scènes complexes :
Comment garantir une haute disponibilité dans un déploiement distribué inter-cloud ;
Comment prendre en charge efficacement plusieurs types de scénarios de planification ;
Comment assurer la haute disponibilité des travaux ETL ;
Comment s'effectue la gouvernance de la planification ;
Comment atteindre une automatisation maximale ;
En parallèle pour certains besoins métiers :
Les analystes de données ont de nombreux besoins de planification et il est difficile de développer des scripts DAG Python
Le DAG auquel appartient un service ou un individu ne souhaite pas être modifié, visualisé et programmé manuellement par d'autres membres du service ?
La validation en ligne des jobs dans le DAG est peu efficace et lourde en charge de travail, comment gagner en efficacité et éviter certaines opérations non standardisées ?
Comment le système de messagerie déclenche-t-il des lots de travaux ?
Partagez le plan d'optimisation correspondant :
Visualisation de la configuration DAG : les paramètres DAG sont configurés sur l'interface et les fichiers DAG sont automatiquement générés en arrière-plan.
Contrôle des autorisations DAG : Autonomisation du DAG par service et DAG, en distinguant la lecture, l'écriture et l'exécution.
Surveillance de la normalisation des travaux : configurez les règles de détection pour surveiller si les travaux sont conformes aux règles et exécutez les invites correspondantes.
Plug-in de déclenchement d'événement : recevez divers messages tels que les tâches de capteur et AMQP, et déclenchez l'exécution de la tâche correspondante.
Présentation de l'invité :
Wu Lian
Ingénieur en développement de données volumineuses dans les technologies de l'information de Shanghai DataSeed, 2 ans d'expérience dans l'utilisation, la maintenance et le développement du flux d'air, j'ai une compréhension approfondie du flux d'air, j'espère que mon expérience et ma compréhension pourront contribuer à la communauté open source du flux d'air.
Pratique de l'ordonnanceur Dolphin sur un lac de données basé sur Apache Hudi
Invité de partage : Zhao Yuwei
Heure : 7 août à 15h30
Présentation du sujet :
Un lac de données est une plate-forme de gestion de données au niveau de l'entreprise permettant d'analyser différents types de sources de données. L'architecture du lac de données assure l'intégration de plusieurs sources de données et prend en charge plusieurs modèles de données pour garantir l'exactitude des données. Il peut répondre aux besoins d'analyse en temps réel et peut également être utilisé comme entrepôt de données pour répondre aux besoins d'exploration de données par lots. Par conséquent, nous avons besoin d'un système de planification des tâches efficace, stable et facilement évolutif pour coordonner les capacités externes du lac de données, telles que l'ingestion de données, le stockage de données, l'exploration de données, la découverte de données, la gouvernance des données, etc. Ici, je vais expliquer pourquoi nous avons choisi Apache DolphinScheduler comme système de planification des tâches et comment nous permettons aux utilisateurs de données d'interagir facilement avec le lac de données sans avoir à prêter trop d'attention aux détails techniques.
Présentation de l'invité :
Zhao Yuwei
Engagé dans des travaux de développement liés à Hadoop, l'orientation principale actuelle du travail est la recherche et le développement d'un système de planification des tâches.
Évolution de l'architecture d'Apache DolphinScheduler, une plate-forme de planification de flux de travail Big Data de nouvelle génération
Invité de partage : Lidong Dai
Heure : 8 août à 13h30
Présentation du sujet :
Il comprend principalement les six parties suivantes :
Tout d'abord, l'introduction de DolphinScheduler
Deuxièmement, les points faibles de la plate-forme de planification de flux de travail Big Data
Troisièmement, les avantages de DolphinScheduler
Quatrièmement, l'évolution architecturale de la version 1.2 à la version 1.3
Cinquièmement, la feuille de route et la feuille de route de l'architecture 2.0
Enfin, partagez quelques user stories
Présentation de l'invité :
LIDONG DAI
Apache DolphinScheduler PMC Chair & Apache Incubator PMC, plus de 10 ans d'expérience dans le big data, excellent dans la construction et l'optimisation de grandes plateformes de données
Pratique de service de qualité des données basée sur Apache DolphinScheduler
Invité de partage : Sun Chaohe
Heure : 8 août à 14h10
Présentation du sujet :
Ce discours vise principalement à partager les idées de conception, les méthodes de mise en œuvre et la manière d'appliquer les services de qualité des données basés sur DolphinScheduler dans des scénarios réels
Présentation de l'invité :
Soleil Chaohe
Possède une riche expérience dans le développement de plates-formes de données volumineuses, aime et participe activement à l'open source, et est un contributeur principal du code de DolphinScheduler
Traitement des données dans Kubernetes avec Airflow
Invité de partage : Luan Peng
Heure : 8 août à 14h50
Présentation du sujet :
1. Pourquoi utilisons-nous airflow + K8S
2, débit d'air oa/rbac/web
3. Le flux d'air s'exécute sur docker/docker-compose/k8s
4, opérateur kubernetes de flux d'air
5. plug-in de module de flux d'air k8s
6. mise à jour du flux d'air conviviale
7. Utilisation dans Tencent Music
Présentation de l'invité :
Luan Peng
Tencent Music Data Center, engagé dans la construction d'une plate-forme d'apprentissage automatique native dans le cloud et de contenu lié à la plate-forme de données
Explication détaillée et planification du flux de travail DolphinScheduler DAG grande division JSON
Invité de partage : lijinyong
Heure : 8 août à 15h30
Présentation du sujet :
À l'heure actuelle, la définition de processus de DolphinScheduler utilise un grand stockage Json, ce qui n'est pas efficace lorsque la tâche est relativement importante. Je vais présenter notre solution pour résoudre ce problème, qui a également été soumise à Apache DolphinScheduler et sera publiée dans un avenir proche.
Présentation de l'invité :
Lijinyong
Un contributeur actif à la communauté DolphinScheduler, un activiste open source, travaillant actuellement dans le département Big Data de Zhengcai Cloud, engagé dans le travail d'architecture de plateforme Big Data, doué pour la conception et le développement de plateformes Big Data et d'outils d'entrepôt de données, dépannage en ligne, etc.
Rendez -vous à Workflow et Data Governance !!!
modalités d'inscription
ApacheCon Asie 2021
6-8 août
14 forums, 100+ projets techniques
Plus de 140 discours thématiques
Dialogue en ligne avec des experts mondiaux de la technologie et des experts
3 jours d'événement d'échange par tous les temps
Libre d'assister
La première conférence virtuelle en ligne d'ApacheCon Asia
6-8 août 2021
dans l'attente de l'arrivée des amis
Cliquez sur le texte original pour vous inscrire
ApacheCon Asie 2021
https://www.apachecon.com/acasia2021/
Cliquez pour lire le texte original, vous pouvez vous inscrire , l'allumer et regarder, vous êtes le meilleur