Diplômés de SeaTunnel ! Le premier projet d'intégration de données dirigé par la Chine est devenu le premier projet Apache

Invités interviewés | Édité par Guo Wei et Gao Jun | Tina

Le 1er juin 2023, heure de Pékin, l'Apache Software Foundation (ci-après dénommée ASF), la plus grande fondation mondiale de logiciels open source, a officiellement annoncé qu'Apache SeaTunnel avait obtenu son diplôme de projet Apache Top Level (TLP, Top Level Project).

Apache SeaTunnel a postulé pour rejoindre l'incubateur Apache en octobre 2021, et en deux mois, il est officiellement devenu un projet d'incubateur Apache avec une excellente performance de "passé par tous les votes". Le 17 mai 2023, le conseil d'administration d'Apache a adopté la résolution de graduation d'Apache SeaTunnel, mettant fin à la période d'incubation de 18 mois et confirmant officiellement qu'Apache SeaTunnel est devenu un projet Apache de haut niveau.

Il s'agit du premier projet de haut niveau dans le domaine de l'intégration de données volumineuses dirigé par des Chinois et contribué à ASF. Afin de comprendre l'origine, le processus de développement et l'expérience open source du projet, InfoQ a interviewé des membres clés d'Apache SeaTunnel projet.

Brève présentation des invités d'entrevue :

Guo Wei, membre de la Fondation Apache ; membre Apache DolphinScheduler PMC ; mentor Apache SeaTunnel.

高俊,Chaise Apache SeaTunnel PMC。

L'origine d'Apache SeaTunnel

** InfoQ : Quel est le rôle principal d'Apache SeaTunnel dans le système Big Data ? **

Guo Wei : À l'heure actuelle, il existe différents moteurs de données dans le système Big Data, notamment Hadoop, Hive, Kudu, Kafka et HDFS dans l'écosystème Big Data, ainsi que MongoDB, Redis, ClickHouse, Doris dans la base de données pan-big. système, et même cloud AWS S3, Redshift, BigQuery, Snowflake sur Internet, et diverses écologies de données MySQL, PostgresSQL, IoTDB, TDEngine, Salesforce, Workday, etc. Nous avons besoin d'outils pour permettre l'interconnexion de ces données, Apache SeaTunnel est donc un outil puissant pour ouvrir ces sources de données complexes. Il peut intégrer simplement, précisément et en temps réel diverses sources de données dans la source de données cible, et devenir un " "autoroute" des flux de données volumineuses.

** InfoQ : Comment fonctionne Apache SeaTunnel, quels sont ses principes clés et sa conception de base ? **

Guo Wei : Face à des centaines de sources de données, nous avons besoin d'une architecture simple et efficace pour résoudre le problème d'intégration des données entre différentes sources de données. Apache SeaTunnel se compose de trois parties, le connecteur source (Source Connector), le moteur de calcul de transmission (SeaTunnel Zeta, Flink, Spark) et le connecteur cible (Sink Connector). En termes simples, le connecteur source consiste à lire la source de données en temps réel (peut-être JDBC, peut-être Binlog, peut-être Kafka non structuré ou API SaaS, modèle de données AI), et convertir les données dans un format de données standard que SeaTunnel peut comprendre Puis l'envoyer au moteur de calcul de transmission, qui traitera les données (telles que le changement de format de données, la segmentation des mots, etc.) et les distribuera. Enfin, le connecteur Sink changera le format de données SeaTunnel au format de l'extrémité cible et le stockera dans la base de données cible. Bien sûr, il existe une transmission de données haute performance très complexe, des instantanés distribués, des points de contrôle globaux, une validation en deux phases, etc., pour garantir que les données peuvent être livrées efficacement et rapidement à l'extrémité cible.

Récemment, la communauté a également soumis SeaTunnel-Web, qui permet aux utilisateurs non seulement d'utiliser un langage de type SQL pour effectuer une transformation, mais également d'utiliser le glisser-déposer de l'interface pour se connecter directement à différentes sources de données. Tout utilisateur open source peut facilement développer le connecteur qui utilise des sources de données, puis le soumettre à la communauté Apache afin que davantage de personnes puissent l'utiliser ensemble. Dans le même temps, vous pouvez également utiliser rapidement le connecteur fourni par d'autres pour résoudre rapidement le problème de connexion entre vos propres sources de données d'entreprise. Actuellement, SeaTunnel prend en charge plus de 100 sources de données, notamment CDC, stockage en nuage, base de données, SaaS, etc., permettant aux entreprises d'accéder facilement à diverses sources de données. Tous pour un, un pour tous, ce qui se reflète pleinement dans le projet open source Apache SeaTunnel.

Évolution d'Apache SeaTunnel

** InfoQ : Quelles sont les grandes étapes de l'évolution du projet Apache SeaTunnel ? **

Gao Jun : Apache SeaTunnel, initialement nommé Waterdrop, est une plate-forme d'intégration de données massives facile à utiliser et efficace, principalement basée sur Apache Spark et Apache Flink. Il prend en charge la synchronisation en temps réel et la conversion de données massives.

Stade de la goutte d'eau. L'objectif principal de cette étape est d'aider Spark à gérer plus facilement les données de sources de données hétérogènes. Au cours de cette période, la mission principale de Waterdrop était de diffuser la puissance de la synchronisation massive de données dans le monde en fournissant un logiciel open source facile à utiliser capable de prendre en charge la synchronisation de dizaines de milliards de données massives par jour.

Les débuts de SeaTunnel. Après que Waterdrop a changé son nom en SeaTunnel en 2021, son objectif principal est de faciliter la synchronisation et l'intégration de sources de données hétérogènes. L'objectif de conception de SeaTunnel est de réduire considérablement le seuil permettant aux utilisateurs d'utiliser Spark, Flink et d'autres technologies pour l'intégration de données. L'objectif de cette étape est d'utiliser Spark et Flink comme moteur de synchronisation de données sous-jacent pour améliorer les performances de débit de la synchronisation des données. En outre, SeaTunnel a également commencé à introduire un système de plug-in enfichable, prenant en charge plus de 100 sources de données, améliorant ainsi ses capacités d'intégration de données.

SeaTunnel à mi-parcours. Au stade intermédiaire de SeaTunnel, SeaTunnel a construit le moteur Zeta, spécialement conçu pour l'intégration de la synchronisation des données. Le nouveau moteur réduit la dépendance vis-à-vis des services tiers, ce qui permet aux utilisateurs qui ne disposent pas d'une plate-forme Big Data ou qui ne souhaitent pas s'appuyer sur une plate-forme Big Data pour la synchronisation des données d'utiliser SeaTunnel. Le moteur Zeta utilise la technologie Dynamic Thread Sharing pour optimiser l'utilisation des ressources, fournit des mécanismes de point de contrôle et de tolérance aux pannes pour les tâches de synchronisation des données et exécute des optimiseurs de plan pour réduire la transmission réseau, améliorant ainsi l'efficacité de la synchronisation des données. Cette phase de SeaTunnel se concentre sur la prise en charge de la synchronisation complète des données de scénario, y compris la synchronisation par lots hors ligne, la synchronisation complète, la synchronisation incrémentielle, la synchronisation en temps réel et le CDC.

La dernière étape de SeaTunnel. Récemment, SeaTunnel est entré dans une nouvelle phase de développement, qui vise à permettre à un groupe d'utilisateurs plus large, y compris des analystes de données et des data scientists, de bénéficier des capacités d'intégration de données simples et efficaces de SeaTunnel. Afin d'atteindre cet objectif, SeaTunnel introduit une interface visuelle, permettant aux utilisateurs de réaliser une synchronisation et une intégration en temps réel de données hétérogènes de manière plus intuitive et pratique. Son objectif a été étendu aux ingénieurs, analystes de données, scientifiques des données, ingénieurs en algorithmes d'IA, etc. Fournir des fonctions de synchronisation de données hétérogènes et d'intégration de synchronisation en temps réel plus efficaces et plus simples.

De Waterdrop à SeaTunnel, en passant par la conception indépendante du moteur Zeta, et maintenant à l'intégration de l'interface visuelle, le développement d'Apache SeaTunnel met en avant son innovation continue, et s'engage à réduire la difficulté du traitement du big data et à améliorer l'efficacité de traitement de l'information. À l'avenir, nous prévoyons que SeaTunnel continuera à promouvoir l'innovation dans le domaine des mégadonnées et à fournir à davantage d'utilisateurs des solutions d'intégration de données de haute qualité.

** InfoQ : Apache SeaTunnel a-t-il été refactorisé ? Alors quelles fonctionnalités ont été améliorées, et comment assurer la stabilité ? **

Gao Jun : Il s'agit principalement de la reconstruction du connecteur Apache SeaTunnel. Le connecteur est responsable de la connexion de sources de données spécifiques en amont et en aval et constitue un élément clé de l'intégration des données. Avant de rejoindre Apache, le positionnement de Waterdrop était de rendre Flink et Spark plus faciles à utiliser, donc toute la conception de l'architecture est basée sur Flink et Spark. Surtout pour les connecteurs, il suffit fondamentalement d'introduire les connecteurs de Spark et Flink. Pour les connecteurs qui ne sont pas disponibles dans Spark et Flink, un ensemble de codes doit être développé en utilisant respectivement les API Spark et Flink. Les premiers lots et flux sont encore différents API Flink , ce qui signifie que la même source de données doit également développer deux ensembles de codes afin de réaliser la synchronisation par lots et la synchronisation par flux.

Le montant des coûts de développement et de maintenance du code est trop élevé. Ainsi, au début de l'année dernière, la communauté a lancé une discussion sur la refactorisation du connecteur. L'objectif est de définir la propre API de connecteur de SeaTunnel, de la dissocier du moteur spécifique et de ne pas dépendre de l'API spécifique du moteur. Un ensemble de code peut exécuter sur les moteurs Spark et Flink en même temps.

Au début de la discussion, de nombreuses personnes ont émis des objections, pensant que Flink et Spark sont des moteurs très matures, et qu'il n'y a rien de mal à s'appuyer fortement sur eux. Certains contributeurs pensent que nous devrions abandonner Spark et nous fier entièrement à Flink, et améliorer les fonctions sur la base de Flink . De plus, la refactorisation de l'API du connecteur signifiait que le travail sur les 50 connecteurs précédents était perdu et que tout devait être recommencé à zéro. Mais au final, la communauté est parvenue à un consensus sur le fait que tout part du positionnement du projet SeaTunnel, la direction technique doit donc obéir aux objectifs et au positionnement du projet. Une fois l'objectif fixé, la communauté a passé un mois à concevoir une nouvelle API de connecteur, puis il a fallu 4 ou 5 mois pour prendre en charge plus de connecteurs 100. La vitesse était impossible à atteindre avec l'architecture précédente, et elle a vraiment été réalisée. prend en charge les capacités de version multimoteur et multimoteur.

Désormais, SeaTunnel prend en charge Spark2, Spark3, Flink 1.14, Flink 1.15, Flink 1.16 et d'autres moteurs et versions, et dispose également de son propre moteur Zeta ultra-performant qui se concentre sur la résolution des problèmes de synchronisation.

** InfoQ : Quelle est la principale différence entre SeaTunnel CDC, Flink CDC et DataX ? Comment choisir ? **

Guo Wei : SeaTunnel prend en charge le traitement par lots et le traitement CDC en même temps. Il peut basculer automatiquement le point de commutation entre le lot et le flux. En même temps, en termes de moteur, il prend en charge la détection de changement DDL que Flink CDC ne prend pas en charge, troisièmement Prise en charge du tampon Kafka -party, partage multi-table d'une tâche, etc. Par rapport à DataX, en plus de ses performances par lots supérieures à 30 %, il prend également en charge les scénarios de synchronisation CDC en temps réel. Bien sûr, la plus grande différence est que SeaTunnel CDC est un outil de synchronisation qui prend en charge plus de 100 sources de données. Il prend en charge la conversion automatique de non structuré à structuré. Il prend non seulement en charge les bases de données, mais prend également en charge l'extraction en temps réel de données complexes telles que Kafka. et API SaaS. Il existe également une puissante interface SeaTunnel-Web, permettant à chacun de créer des tâches de synchronisation par glisser-déposer, et en même temps de surveiller et de traiter diverses situations de synchronisation. En bref, l'objectif de SeaTunnel est d'intégrer simplement, efficacement et avec précision des sources de données hétérogènes dans des destinations spécifiées par l'utilisateur.

** InfoQ : Snowflake et AWS ont investi dans la conversion, la circulation et l'intégration de données Zero-ETL. Que pensez-vous de cette orientation technologique ? Sera-ce le futur ? **

Guo Wei : Zero-ETL est similaire à DataMesh. L'objectif est d'atteindre l'objectif d'interroger les résultats des données sans déplacer les données ou de déplacer une petite quantité de données autant que possible. Dans certains scénarios, par exemple, la requête KV et la requête conjointe OLAP ou la requête conjointe OLTP+OLAP présentent certains avantages. Cependant, les scénarios d'application de données sont très complexes, sinon il n'y aurait pas des milliers de moteurs de données pour gérer diverses questions.En même temps, l'intégration de données n'est pas seulement l'intégration de données entre les bases de données, mais inclut également SaaS aux sources de données, vecteur De la données au moteur d'IA, différents scénarios émergents vont émerger les uns après les autres, ce sont en fait des scénarios que DataMesh et Zero-ETL ne peuvent pas gérer. Ainsi, de mon point de vue, DataMesh et Zero-ETL peuvent résoudre environ 20 % des scénarios d'intégration de données des utilisateurs. Avec la popularité de l'IA et du SaaS, davantage de scénarios nécessitent des outils d'intégration de données plus professionnels pour être résolus.

L'histoire open source d'Apache SeaTunnel

** InfoQ : Comment Apache SeaTunnel se connecte-t-il à l'open source ? Pouvez-vous me raconter l'histoire en détail ? **

Gao Jun : La naissance de SeaTunnel. Apache SeaTunnel s'appelait à l'origine Waterdrop, et il était principalement dédié à l'utilisation de Spark et Flink pour traiter plus facilement les données sur différentes sources de données. Plus tard, nous avons rencontré Guo Wei et Dai Lidong, qui ont open source Beluga, et nous avons vu l'espace infini dans ce domaine en un coup d'œil. À l'heure actuelle, Apache Sqoop a été retiré et aucun projet dans le domaine de la Fondation Apache ne peut remplacer Sqoop pour résoudre l'écologie de la synchronisation des données volumineuses. En Chine, DataX ne peut prendre en charge que la synchronisation par lots des sources de données, et la prise en charge des sources de données est Outre-mer, il existe des projets explosifs tels que FiveTran et Airbyte.L'industrie a vraiment besoin d'un projet open source capable de connecter efficacement, simplement et avec précision diverses sources de données.

Par conséquent, avec le soutien du membre du conseil d'administration d'Apache Jiang Ning, du PMC européen Jean-Baptiste Onofré, du patron d'Apache Ted Liu et d'autres, SeaTunnel est entré dans l'incubateur Apache et est devenu un incubateur Apache professionnel qui intègre efficacement les données et connecte diverses sources de données du projet.

Après être entré dans l'incubateur Apache, SeaTunnel s'est développé rapidement et le nombre de connecteurs est passé de 20 dans le passé à plus de 100 maintenant, couvrant les sources de données utilisées par la plupart des entreprises, pas seulement domestiques Bilibili, Toutiao, Sina, même les utilisateurs de JP Morgan aux États-Unis sont attirés par des connecteurs de données aussi nombreux et performants.Le deuxième opérateur indien, Bharti Airtel, utilise même SeaTunnel dans son environnement de production.

Le premier défi de SeaTunnel. Cependant, SeaTunnel a également rencontré son premier défi à cette époque.Lorsque Spark et Flink ont ​​été utilisés comme moteur principal, nous avons subi de nombreux revers dans le scénario de synchronisation des données volumineuses.Par exemple, il n'a pas été en mesure de prendre en charge les changements de table automatiques dans le scénario CDC. Lors de la synchronisation de milliers de tables, Spark et Flink sont soit dans la même tâche, et n'importe quelle table a un problème, et la tâche entière échoue, soit une table est une tâche, et la ressource et la base de données source ne peuvent pas la gérer. misérable. A cette époque, j'ai avancé une idée, celle de construire le propre moteur d'Apache SeaTunnel - un moteur spécialement conçu pour la synchronisation et l'intégration des données. Il ne s'appuie pas sur Flink et Spark basés sur l'informatique, et peut librement satisfaire l'évolution du schéma, la collecte de données d'erreur, la limitation du courant de données, etc. dans les scénarios de synchronisation de données, et peut également économiser de la mémoire et des emplacements CPU réservés par Flink et Spark pour des calculs complexes. , tout en utilisant une technologie de mémoire similaire à Apache Arrow pour maximiser l'efficacité de la transmission des données tout en garantissant la cohérence globale. De plus, les partenaires de la communauté ont donné à ce moteur un nom très imaginatif, Zeta, qui est le nom de l'astéroïde le plus rapide de l'univers, ce qui signifie qu'il peut transporter les données de l'univers et faire rapidement la navette entre les étoiles. (J'ai découvert plus tard que c'est aussi le nom anglais d'Ultraman Zeta. Je pense que cela peut aider à la transmission interstellaire de données, et si vous rencontrez des monstres, vous pouvez aussi combattre de petits monstres ^ _ ^).

Il n'est pas facile d'écrire un moteur directement à partir de zéro. Après des discussions de conception maintes et maintes fois, renversant encore et encore la conception originale, environ quatre à cinq versions de la conception et la mise en œuvre du prototype, en octobre 2022, la première version de SeaTunnel Zeta vient de sortir la version Alpha. Une fois cette version publiée, elle a choqué tout le monde. Elle prend non seulement en charge les scénarios CDC que DataX ne prend pas en charge, mais prend également en charge la synchronisation des modifications DDL sur le framework. Les performances sont étonnamment bonnes, 40 fois plus rapides que les produits open source étrangers similaires. L'apparition de SeaTunnel Zeta a soudainement ouvert le plafond d'Apache SeaTunnel. Peu importe le nombre de dizaines de milliers de connecteurs de sources de données qu'il y aura à l'avenir, vous pouvez parcourir l'univers à la vitesse de 1/3 de la vitesse de la lumière sur le petite étoile Zeta ~

Deuxième défi de SeaTunnel, comment diviser les frontières entre l'open source et l'open source business ? À l'heure actuelle, les Committers d'Apache SeaTunnel sont assez généraux. Jianfeng fait référence à diverses sources de données, et le nombre de connecteurs de sources de données a été multiplié par 5, passant de 20 sources de données en janvier 2022 à décembre 2022. 104 sources de données.

Mais le problème est revenu. Les utilisateurs se sont plaints que l'écriture de code de type SQL est encore trop gênante pour les gens ordinaires. Pouvez-vous utiliser SeaTunnel plus simplement via l'interface ? En effet, démocratiser les capacités de synchronisation des données est l'intention initiale du projet SeaTunnel. A cette époque, moi qui ai rejoint Beluga Open Source, j'ai discuté avec Dai Lidong, le co-fondateur de Beluga Open Source, si nous pouvions apporter l'interface de la version commerciale de WhaleTunnel basée sur SeaTunnel à la communauté Apache, afin que plus les gens peuvent avoir une synchronisation des données plus simple. Dai Lidong, un activiste open source qui a toujours défendu la culture open source, comprend l'importance d'une interface simple et facile à utiliser pour résoudre les problèmes des utilisateurs, mais si l'interface est également open source, alors que fera Moby Whale, un commercial entreprise dont dépendent ses futurs revenus ? Comment ces personnes qui aiment l'open source peuvent-elles continuer à contribuer à l'open source ?

J'ai trouvé Li Chen, le partenaire commercial open source de Beluga, et l'ancien directeur général d'Informatica China, et Nie Lifeng, le partenaire opérationnel, pour discuter de cette question. Bien que tout le monde aime l'open source, tout le monde a aussi besoin de manger pour subvenir aux besoins de sa famille. ... Cette discussion est très intense et dure toute la journée. En fin de compte, Li Chen a déclaré que le gène de "White Whale Open Source" est open source. Si nous fermons la source des fonctions de base qui peuvent aider tout le monde à résoudre rapidement les problèmes pour les commandes commerciales, alors la source fermée et l'open source s'opposeront l'une à l'autre. autre, puis Beluga Open Source et open source Quelle est la différence entre les éditeurs de logiciels à code source fermé comme Informatica et Fivetran ? Si nous voulons y aller, nous emprunterons la voie de l'open source continue en Chine. Nous croyons fermement que davantage d'utilisateurs perfectionneront les produits open source, ce qui améliorera certainement les produits commerciaux open source de Beluga, au lieu de prendre la voie de la source fermée. des produits!

Par conséquent, un soir de printemps 2023, plusieurs personnes ont convenu à l'unanimité d'apporter toutes les interfaces du WhaleTunnel commercial à SeaTunnel, afin que davantage de personnes aient la possibilité de synchroniser des données hétérogènes en temps réel. Lors de la réunion hebdomadaire de SeaTunnel plus tard, dès que j'ai annoncé la nouvelle, de nombreux utilisateurs étaient enthousiastes, disant que nous attendons l'open source du web, faites-le vite, et nous irons en ligne immédiatement ! (Dai Lidong, Li Chen et Nie Lifeng Zhouhui ont entendu cela, ont souri légèrement, se sont déconnectés secrètement et n'ont laissé ni crédit ni renommée - si ces personnes sortent à l'avenir avec un bol pour "demander l'aumône", veuillez les soutenir. beaucoup, support Ils supportent la puissance open source originale de SeaTunnel).

SeaTunnel est diplômé ! Après avoir passé cinq niveaux et tué six généraux, sous la direction de 7 mentors de la Fondation Apache, la communauté Apache SeaTunnel a rejoint 28 Commiters et 18 PMC, et a publié 8 versions d'Apache grâce aux efforts conjoints de la communauté. Grâce à un processus de développement transparent et à une gestion de code open source, le projet Apache SeaTunnel a acquis une large participation au sein de la communauté. Au milieu, ils ont surmonté de nombreuses difficultés et défis tels que l'établissement et la localisation de la communauté, la distribution d'énergie, le travail d'équipe et la croissance de la communauté.Enfin, le 1er juin 2023, Journée des enfants, ils ont dédié leurs enfants et adultes dans toutes les communautés. La journée des enfants!

La Chine a enfin son propre projet phare pour la synchronisation et l'intégration de données open source ! "C'est un grand pas pour SeaTunnel, mais seulement un petit pas pour l'open source chinois. Je pense que d'autres excellents projets open source ont vu le jour en Chine, et l'entreprise open source chinoise peut également aider les passionnés chinois de l'open source à mieux soutenir leurs familles." Et les contributions open source !

** InfoQ : SeaTunnel a obtenu son diplôme et est devenu le premier projet de haut niveau de la Fondation Apache dans le domaine de l'intégration de données dominé par les Chinois. Quelle expérience pouvez-vous partager ? Surtout en termes de gestion d'une communauté mondiale ? **

Gao Jun : Tout comme nous devons comprendre la culture de l'entreprise lorsque nous rejoignons une nouvelle entreprise, nous devons également comprendre la culture d'ASF avant de participer au projet open source Apache. La culture ASF est The Apache Way.

Si vous approfondissez l'open source, vous constaterez que l'open source n'est pas qu'une simple question de code open source. L'open source est également lié à la gestion communautaire, à l'activité communautaire, à la communication communautaire, à la culture communautaire, etc., ce qui nous oblige à avoir une compréhension plus profonde de la méthode Apache.

Au vu de l'expérience précédente, Apache SeaTunnel avait une profonde compréhension de l'importance de l'Apache Way dès le début de l'entrée dans l'incubateur Apache.Par exemple, pour la communauté open source, le concept de Community Over Code devrait être ancré au cœur , qui oblige également la communauté à se préparer et Des efforts doivent être faits pour abaisser autant que possible le seuil de toute personne intéressée à participer au projet, voire créer un seuil zéro, comme l'élaboration d'un plan d'incitation communautaire, la création d'un guide du débutant , en sélectionnant Good First Issues, en suivant la progression des fonctionnalités importantes et en obtenant des commentaires via des entretiens réguliers avec les utilisateurs et des suggestions d'optimisation, des réponses régulières aux questions de la communauté sur les projets et les communautés, etc.

Les contributions de la communauté ne se limitent pas au code, et les contributions non-code peuvent même parfois jouer un rôle plus précieux que le code, comme utiliser votre propre influence pour contribuer à l'attention du projet, écrire des articles techniques et non techniques liés au projet, et participer à diverses activités organisées par la communauté, "soutenir" Apache SeaTunnel à divers moments et occasions, le recommander à davantage d'utilisateurs, etc., sont autant de canaux pour participer à la communauté.

Dans le même temps, Community Over Code met également l'accent sur l'ouverture, la communication et la coopération. Apache SeaTunnel respecte ces concepts, insiste sur le maintien de la communication avec les communautés nationales et étrangères, apprend les uns des autres et établit une communication avec la communauté Apache. Toutes les discussions prennent placer dans les e-mails et les problèmes, et annoncer les principaux progrès et plans du projet et de la communauté via les canaux auto-médias de la communauté, afin que la communauté reste ouverte et transparente.

Depuis son entrée dans la période d'incubation, Apache SeaTunnel a organisé plus de 20 rencontres en ligne et hors ligne avec un certain nombre de projets open source dans le pays et à l'étranger, notamment Apache Shenyu, Apache InLong, Apache Linkis, Apache Doris, IoTDB qui ont obtenu leur diplôme avec succès de l'ASF. incubateur avant Apache SeaTunnel, StarRocks, TDengine et d'autres projets open source matures, ainsi que des Meetups organisés conjointement avec Trino, APISIX, Shopee et ALC Indore aux États-Unis, en Inde et dans d'autres régions d'outre-mer. La coopération et la communication entre les communautés favorisent le développement et l'application de technologies open source.Apache SeaTunnel coopère avec d'autres projets open source pour résoudre des problèmes techniques, ce qui est propice à l'amélioration du niveau global de l'écologie open source et à l'élargissement des limites de l'écologie open source.

Apache SeaTunnel participe également activement à des conférences et expositions techniques au pays et à l'étranger pour présenter des projets open source et des réalisations techniques, et étendre l'influence et la popularité du projet grâce à des échanges avec des experts et des développeurs de l'industrie.

Au fil du temps, la communauté a subi des changements qualitatifs. À partir des discussions par e-mail de la communauté et de l'affichage des données GitHub, vous constaterez que la communauté Apache SeaTunnel est devenue vraiment active et diversifiée.

** InfoQ : Quels sont les futurs projets d'Apache SeaTunnel en termes d'open source ? **

Gao Jun : Il y a principalement cinq aspects :

  1. SeaTunnel améliorera encore les performances et la stabilité du moteur Zeta et mettra en œuvre les modifications DDL précédemment prévues, le traitement des données d'erreur, le contrôle du débit et la synchronisation multi-tables.
  2. SeaTunnel-Web entrera également dans l'état Release à partir de l'état Alpha, vous permettant de définir et de contrôler l'ensemble du processus de synchronisation directement depuis l'interface.
  3. Pour renforcer la coopération des composants AGI, en plus d'utiliser ChatGPT pour générer automatiquement des connecteurs, la base de données vectorielle et la connexion de plug-ins de grands modèles sont renforcées, de sorte que plus de 100 sources de données existantes peuvent être connectées de manière transparente à de grands modèles.
  4. Améliorez la relation avec l'écologie en amont et en aval, et intégrez et interconnectez avec Apache DolphinScheduler, Apache Airflow et d'autres écosystèmes Apache.
  5. Après la prise en charge des documents Google Sheet, Feishu et Tencent, renforcez la structure du connecteur SaaS, comme ChatGPT, Salesforce, Workday, etc.

    Cet article est supporté par Beluga Open Source Technology !

Acho que você gosta

Origin blog.csdn.net/weixin_54625990/article/details/131384185
Recomendado
Clasificación