¡Egresados de SeaTunnel! El primer proyecto de integración de datos liderado por chinos se convirtió en el principal proyecto de Apache

Invitados entrevistados | Editado por Guo Wei y Gao Jun | Tina

El 1 de junio de 2023, hora de Beijing, Apache Software Foundation (en lo sucesivo, ASF), la fundación de software de código abierto más grande del mundo, anunció oficialmente que Apache SeaTunnel se graduó como Apache Top Level Project (TLP, Top Level Project).

Apache SeaTunnel solicitó unirse a la incubadora de Apache en octubre de 2021 y, en dos meses, se convirtió oficialmente en un proyecto de incubadora de Apache con un excelente desempeño de "aprobado por todos los votos". El 17 de mayo de 2023, la Junta Directiva de Apache aprobó la resolución de graduación de Apache SeaTunnel, finalizando el período de incubación de 18 meses y confirmando oficialmente que Apache SeaTunnel se ha convertido en un proyecto Apache de primer nivel.

Este es el primer proyecto de alto nivel en el campo de la integración de big data liderado por chinos y contribuido a ASF. Para comprender el origen, el proceso de desarrollo y la experiencia de código abierto del proyecto, InfoQ entrevistó a miembros clave de Apache SeaTunnel. proyecto.

Breve introducción de los invitados a la entrevista:

Guo Wei, miembro de la Fundación Apache; Miembro del PMC de Apache DolphinScheduler; Mentor de Apache SeaTunnel.

高俊,Apache SeaTunnel PMC Chair。

El origen de Apache SeaTunnel

** InfoQ: ¿Cuál es el papel principal de Apache SeaTunnel en el sistema de big data? **

Guo Wei: En la actualidad, hay varios motores de datos en el sistema de big data, incluidos Hadoop, Hive, Kudu, Kafka y HDFS en el ecosistema de big data, así como MongoDB, Redis, ClickHouse, Doris en la base de datos pan-big. sistema, e incluso en la nube AWS S3, Redshift, BigQuery, Snowflake en Internet, y varios ecología de datos MySQL, PostgresSQL, IoTDB, TDEngine, Salesforce, Workday, etc. Necesitamos herramientas para permitir que estos datos se interconecten, por lo que Apache SeaTunnel es una herramienta poderosa para abrir estas fuentes de datos complejas. Puede integrar de manera simple, precisa y en tiempo real varias fuentes de datos en la fuente de datos de destino, y convertirse en un " gran flujo de datos"autopista".

** InfoQ: ¿Cómo funciona Apache SeaTunnel, cuáles son sus principios clave y su diseño central? **

Guo Wei: Frente a cientos de fuentes de datos, necesitamos una arquitectura simple y eficiente para resolver el problema de la integración de datos entre varias fuentes de datos. Apache SeaTunnel consta de tres partes, el conector de origen (Source Connector), el motor de cálculo de transmisión (SeaTunnel Zeta, Flink, Spark) y el conector de destino (Sink Connector). En pocas palabras, el conector de origen es leer la fuente de datos en tiempo real (tal vez JDBC, tal vez Binlog, tal vez Kafka no estructurado o API SaaS, modelo de datos de IA) y convertir los datos en un formato de datos estándar que SeaTunnel pueda entender. Luego, envíelo al motor de cálculo de transmisión, que procesará los datos (como cambio de formato de datos, segmentación de palabras, etc.) y los distribuirá.Finalmente, Sink Connector cambiará el formato de datos de SeaTunnel al formato del extremo objetivo y lo almacenará en la base de datos de destino. Por supuesto, existen transmisiones de datos de alto rendimiento muy complejas, instantáneas distribuidas, puntos de control globales, confirmación en dos fases, etc., para garantizar que los datos se puedan entregar al extremo objetivo de manera eficiente y rápida.

Recientemente, la comunidad también presentó SeaTunnel-Web, que permite a los usuarios no solo usar un lenguaje similar a SQL para hacer Transform, sino también usar la interfaz de arrastrar y soltar para conectarse directamente a diferentes fuentes de datos. Cualquier usuario de código abierto puede expandir fácilmente el conector que usa fuentes de datos y luego enviarlo a la comunidad de Apache para que más personas puedan usarlo juntos. Al mismo tiempo, también puede usar rápidamente el conector aportado por otros para resolver rápidamente el problema de conexión entre las fuentes de datos de su propia empresa. Actualmente, SeaTunnel admite más de 100 fuentes de datos, incluidos CDC, almacenamiento en la nube, base de datos, SaaS, etc., lo que permite a las empresas acceder fácilmente a varias fuentes de datos. Todos para uno, uno para todos, lo que se refleja plenamente en el proyecto Apache SeaTunnel de código abierto.

Evolución de Apache SeaTunnel

** InfoQ: ¿Cuáles son las principales etapas de la evolución del proyecto Apache SeaTunnel? **

Gao Jun: Apache SeaTunnel, originalmente llamado Waterdrop, es una plataforma de integración de datos masiva eficiente y fácil de usar, basada principalmente en Apache Spark y Apache Flink. Admite sincronización y conversión en tiempo real de datos masivos.

Etapa de gota de agua. El objetivo principal de esta etapa es ayudar a Spark a manejar datos de origen de datos heterogéneos con mayor facilidad. Durante este período, la misión principal de Waterdrop fue difundir el poder de la sincronización masiva de datos en el mundo al proporcionar un software de código abierto fácil de usar capaz de admitir la sincronización de decenas de miles de millones de datos masivos por día.

Primeros días de SeaTunnel. Después de que Waterdrop cambiara su nombre a SeaTunnel en 2021, su objetivo principal es una sincronización e integración más sencillas de fuentes de datos heterogéneas. El objetivo de diseño de SeaTunnel es reducir en gran medida el umbral para que los usuarios utilicen Spark, Flink y otras tecnologías para la integración de datos. El objetivo de esta etapa es usar Spark y Flink como el motor de sincronización de datos subyacente para mejorar el rendimiento de la sincronización de datos. Además, SeaTunnel también ha comenzado a introducir un sistema de complemento conectable, que admite más de 100 fuentes de datos, mejorando así sus capacidades de integración de datos.

SeaTunnel a medio plazo. En la etapa intermedia de SeaTunnel, SeaTunnel construyó el motor Zeta, que está especialmente diseñado para la integración de sincronización de datos. El nuevo motor reduce la dependencia de los servicios de terceros, facilitando el uso de SeaTunnel para los usuarios que no tienen una plataforma de big data o que no están dispuestos a confiar en una plataforma de big data para la sincronización de datos. El motor Zeta utiliza tecnología Dynamic Thread Sharing para optimizar el uso de recursos, proporciona puntos de control y mecanismos tolerantes a fallas para tareas de sincronización de datos y ejecuta optimizadores de planes para reducir la transmisión de red, mejorando así la eficiencia de sincronización de datos. Esta fase de SeaTunnel se enfoca en admitir la sincronización de datos de escenario completo, incluida la sincronización por lotes sin conexión, la sincronización completa, la sincronización incremental, la sincronización en tiempo real y CDC.

La última etapa de SeaTunnel. Recientemente, SeaTunnel ha entrado en una nueva etapa de desarrollo, cuyo objetivo es permitir que un grupo de usuarios más amplio, incluidos analistas de datos y científicos de datos, se beneficien de las capacidades de integración de datos simples y eficientes de SeaTunnel. Para lograr este objetivo, SeaTunnel presenta una interfaz visual que permite a los usuarios realizar la sincronización e integración en tiempo real de datos heterogéneos de manera más intuitiva y conveniente. Su objetivo se ha extendido a ingenieros, analistas de datos, científicos de datos, ingenieros de algoritmos de IA, etc. Proporcionar sincronización de datos heterogéneos más eficiente y simple y funciones de integración de sincronización en tiempo real.

Desde Waterdrop a SeaTunnel, al diseño independiente del motor Zeta y ahora a la integración de la interfaz visual, el desarrollo de Apache SeaTunnel destaca su innovación continua y está comprometido a reducir la dificultad del procesamiento de big data y mejorar la eficiencia de procesamiento de datos. En el futuro, esperamos que SeaTunnel continúe promoviendo la innovación en el campo de los grandes datos y brinde a más usuarios soluciones de integración de datos de alta calidad.

** InfoQ: ¿Se ha refactorizado Apache SeaTunnel? Entonces, ¿qué características se han mejorado y cómo garantizar la estabilidad? **

Gao Jun: Esto se refiere principalmente a la reconstrucción del conector Apache SeaTunnel.El conector es responsable de conectar fuentes de datos ascendentes y descendentes específicas y es un componente clave de la integración de datos. Antes de unirse a Apache, el posicionamiento de Waterdrop era hacer que Flink y Spark fueran más fáciles de usar, por lo que todo el diseño de la arquitectura se basa en Flink y Spark. Especialmente para los conectores, básicamente basta con introducir los conectores de Spark y Flink. Para los conectores que no están disponibles en Spark y Flink, es necesario desarrollar un conjunto de códigos usando las API de Spark y Flink respectivamente. Los primeros lotes y flujos siguen siendo diferentes. Flink API, lo que significa que la misma fuente de datos también necesita desarrollar dos conjuntos de códigos para lograr la sincronización por lotes y la sincronización de transmisión.

La cantidad de desarrollo de código y los costos de mantenimiento son demasiado altos. Entonces, a principios del año pasado, la comunidad inició una discusión sobre la refactorización del conector. El objetivo es definir la propia API del conector de SeaTunnel, desacoplarla del motor específico y no depender de la API del motor específico. Un conjunto de código puede ejecutarse en motores Spark y Flink al mismo tiempo.

En la etapa inicial de la discusión, muchas personas tenían objeciones, pensando que Flink y Spark son motores muy maduros, y no hay nada de malo en confiar mucho en ellos. Algunos colaboradores piensan que deberíamos abandonar Spark y confiar completamente en Flink, y mejorar las funciones sobre la base de Flink. Además, la refactorización de la API del conector significaba que el trabajo en los más de 50 conectores anteriores se desperdiciaba y todo tenía que comenzar desde cero. Pero al final, la comunidad llegó al consenso de que todo parte del posicionamiento del proyecto SeaTunnel, por lo que la dirección técnica debe obedecer a los objetivos y posicionamiento del proyecto. Una vez que se estableció el objetivo, la comunidad pasó un mes diseñando una nueva API de conector, y luego tomó 4 o 5 meses para admitir más de 100 conectores. La velocidad era imposible de lograr con la arquitectura anterior, y realmente se logró. SeaTunnel admite capacidades de versión multimotor y multimotor.

Ahora, SeaTunnel es compatible con Spark2, Spark3, Flink 1.14, Flink 1.15, Flink 1.16 y otros motores y versiones, y también tiene su propio motor Zeta de ultra alto rendimiento que se enfoca en resolver problemas de sincronización.

** InfoQ: ¿Cuál es la principal diferencia entre SeaTunnel CDC, Flink CDC y DataX? ¿Cómo debemos elegir? **

Guo Wei: SeaTunnel admite el procesamiento por lotes y el procesamiento de CDC al mismo tiempo. Puede cambiar automáticamente el punto de cambio entre lote y flujo. Al mismo tiempo, en términos de motor, admite la detección de cambios DDL que Flink CDC no admite, tercero -Soporte de búfer de Kafka para fiestas, varias tablas Compartir una tarea, etc. En comparación con DataX, además de su rendimiento por lotes superior al 30 %, también admite escenarios de sincronización de CDC en tiempo real. Por supuesto, la mayor diferencia es que SeaTunnel CDC es una herramienta de sincronización que admite más de 100 fuentes de datos. Admite la conversión automática de no estructurados a estructurados. No solo admite bases de datos, sino que también admite la extracción en tiempo real de datos complejos como Kafka. y API SaaS. También hay una poderosa interfaz SeaTunnel-Web, que permite a todos arrastrar y soltar para crear tareas de sincronización y, al mismo tiempo, monitorear y procesar varias situaciones de sincronización. En resumen, el objetivo de SeaTunnel es integrar fuentes de datos heterogéneas en destinos especificados por el usuario de manera simple, eficiente y precisa.

** InfoQ: Snowflake y AWS han invertido en conversión, circulación e integración de datos Zero-ETL. ¿Qué piensa de esta dirección tecnológica? ¿Será el futuro? **

Guo Wei: Zero-ETL es similar a DataMesh. El objetivo es lograr el objetivo de consultar resultados de datos sin mover datos o mover una pequeña cantidad de datos tanto como sea posible. En algunos escenarios, por ejemplo, la consulta KV y la consulta conjunta OLAP o la consulta conjunta OLTP+OLAP tienen ciertas ventajas. Sin embargo, los escenarios de aplicación de datos son muy complejos, de lo contrario no habría miles de motores de datos para manejar varios asuntos. Al mismo tiempo, la integración de datos no es solo integración de datos entre bases de datos, sino que también incluye SaaS a fuentes de datos, vector From the datos al motor de IA, surgirán varios escenarios emergentes uno tras otro, que en realidad son escenarios que DataMesh y Zero-ETL no pueden manejar. Entonces, desde mi punto de vista, DataMesh y Zero-ETL pueden resolver alrededor del 20 % de los escenarios de integración de datos de los usuarios.Con la popularidad de AI y SaaS, más escenarios requieren herramientas de integración de datos más profesionales para resolver.

La historia de código abierto de Apache SeaTunnel

** InfoQ: ¿Cómo se conecta Apache SeaTunnel con el código abierto? ¿Puedes contarme la historia en detalle? **

Gao Jun: El nacimiento de SeaTunnel. Apache SeaTunnel originalmente se llamaba Waterdrop, y se dedicaba principalmente a usar Spark y Flink para procesar datos más fácilmente en diferentes fuentes de datos. Más tarde, conocimos a Guo Wei y Dai Lidong, que abren Beluga, y vimos el espacio infinito en este campo de un vistazo. En este momento, Apache Sqoop se ha retirado y no hay ningún proyecto en el campo de la Fundación Apache que pueda reemplazar a Sqoop para resolver la ecología de sincronización de big data.En China, DataX solo puede admitir la sincronización por lotes de fuentes de datos, y la compatibilidad con fuentes de datos es También limitado. En el extranjero, hay proyectos explosivos como FiveTran y Airbyte. La industria realmente necesita un proyecto de código abierto que pueda conectar de manera eficiente, simple y precisa varias fuentes de datos.

Por lo tanto, con el apoyo del miembro de la junta de Apache Jiang Ning, el PMC europeo Jean-Baptiste Onofré, el jefe de Apache Ted Liu y otros, SeaTunnel ingresó a la incubadora de Apache y se convirtió en una incubadora profesional de Apache que integra datos de manera eficiente y conecta varias fuentes de datos.

Después de ingresar a la incubadora Apache, SeaTunnel se ha desarrollado rápidamente y la cantidad de conectores ha cambiado de 20 en el pasado a más de 100 ahora, cubriendo las fuentes de datos utilizadas por la mayoría de las empresas, no solo Bilibili nacional, Toutiao, Sina, incluso los usuarios. de JP Morgan en los Estados Unidos se sienten atraídos por tantos y eficientes conectores de datos El segundo operador más grande de la India, Bharti Airtel, incluso utiliza SeaTunnel en su entorno de producción.

El primer desafío de SeaTunnel. Sin embargo, SeaTunnel también se encontró con su primer desafío en este momento. Cuando Spark y Flink se usaron como motor principal, sufrimos muchos contratiempos en el escenario de sincronización de big data. Por ejemplo, no pudo admitir cambios de tabla automáticos en el escenario de CDC. Al sincronizar miles de tablas, Spark y Flink están en una tarea y cualquier tabla tiene un problema y la tarea completa falla, o una tabla es una tarea y los recursos y las bases de datos de origen no pueden manejarla. En este momento, presenté una idea, que es construir el propio motor de Apache SeaTunnel, un motor especialmente diseñado para la sincronización e integración de datos. No se basa en Flink y Spark basados ​​en computación, y puede satisfacer libremente Schema Evolution, recopilación de datos de error, limitación de corriente de datos, etc. en escenarios de sincronización de datos, y también puede ahorrar memoria y ranuras de CPU reservadas por Flink y Spark para cálculos complejos. , al tiempo que utiliza una tecnología de memoria similar a Apache Arrow para maximizar la eficiencia de la transmisión de datos con la premisa de garantizar la coherencia global. Además, los socios de la comunidad le dieron a este motor un nombre muy imaginativo, Zeta, que es el nombre del asteroide más rápido del universo, lo que significa que puede transportar los datos del universo y viajar rápidamente entre las estrellas. (Más tarde descubrí que también es el nombre en inglés de Ultraman Zeta. Creo que puede ayudar a la transmisión interestelar de datos, y si te encuentras con monstruos, también puedes luchar contra monstruos pequeños ^_^).

No es fácil escribir un motor directamente desde cero. Después de discusiones de diseño una y otra vez, volcando el diseño original una y otra vez, alrededor de cuatro o cinco versiones del diseño e implementación del prototipo, en octubre de 2022, la primera versión de SeaTunnel Zeta acaba de lanzar la versión Alpha. Una vez que se lanzó esta versión, sorprendió a todos. No solo admite escenarios de CDC que DataX no admite, sino que también admite la sincronización de cambios DDL en el marco. El rendimiento es sorprendentemente bueno, 40 veces más rápido que productos similares de código abierto en el extranjero. La aparición de SeaTunnel Zeta abrió repentinamente el techo de Apache SeaTunnel. No importa cuántas decenas de miles de conectores de fuentes de datos haya en el futuro, puedes viajar por el universo a la velocidad de 1/3 de la velocidad de la luz en el pequeña estrella Zeta~

El segundo desafío de SeaTunnel, ¿cómo dividir los límites entre el código abierto y el negocio de código abierto? En este momento, los Committers de Apache SeaTunnel son bastante generales. Jianfeng se refiere a varias fuentes de datos, y la cantidad de conectores de fuentes de datos ha aumentado 5 veces, de 20 fuentes de datos en enero de 2022 a diciembre de 2022. 104 fuentes de datos.

Pero el problema vino de nuevo. Los usuarios se quejaron de que escribir código similar a SQL sigue siendo demasiado problemático para que lo use la gente común. ¿Se puede usar SeaTunnel de manera más simple a través de la interfaz? De hecho, democratizar las capacidades de sincronización de datos es la intención original del proyecto SeaTunnel. En este momento, yo, que me he unido a Beluga Open Source, discutí con Dai Lidong, el cofundador de Beluga Open Source, si podemos aportar la interfaz de la versión comercial de WhaleTunnel basada en SeaTunnel a la comunidad Apache, para que más las personas pueden tener una capacidad de sincronización de datos más simple. Dai Lidong, un activista del código abierto que siempre ha defendido la cultura del código abierto, entiende lo importante que es una interfaz simple y fácil de usar para resolver los problemas de los usuarios, pero si la interfaz también es de código abierto, ¿qué hará Moby Whale, un comercial? empresa de la que depende para sus ingresos futuros? ¿Cómo pueden estas personas que aman el código abierto continuar contribuyendo al código abierto?

Encontré a Li Chen, el socio comercial de código abierto de Beluga, y exgerente general de Informatica China, y Nie Lifeng, el socio operativo, para discutir este asunto. Aunque a todos les encanta el código abierto, todos también necesitan comer para mantener a sus familias. ... Esta discusión muy intensa y dura todo el día. Al final, Li Chen dijo que el gen de "White Whale Open Source" es de código abierto. Si cerramos la fuente de las funciones principales que pueden ayudar a todos a resolver problemas rápidamente para pedidos comerciales, entonces el código cerrado y el código abierto se opondrán entre sí. otro, luego Beluga Open Source y open source ¿Cuál es la diferencia entre las empresas de software de código cerrado como Informatica y Fivetran? Si queremos ir, tomaremos un camino de código abierto continuo en China. Creemos firmemente que más usuarios pulirán los productos de código abierto, lo que definitivamente hará que los productos comerciales de código abierto de Beluga funcionen mejor, en lugar de tomar un camino de código cerrado. productos!

Por eso, en una noche de primavera de 2023, varias personas acordaron por unanimidad aportar todas las interfaces del WhaleTunnel comercial a SeaTunnel, para que más personas tengan la capacidad de sincronizar datos heterogéneos en tiempo real. Más tarde, en la reunión semanal de SeaTunnel, tan pronto como anuncié las noticias, muchos usuarios estaban emocionados y dijeron que estamos esperando el código abierto de la web, ¡hágalo rápido y nos pondremos en línea de inmediato! (Dai Lidong, Li Chen y Nie Lifeng Zhouhui escucharon esto, sonrieron levemente, se desconectaron en secreto y no dejaron crédito ni fama; si estas personas salen en el futuro con un tazón para "pedir limosna", apóyenlos mucho, apoyo Están apoyando el poder original de código abierto de SeaTunnel).

¡SeaTunnel se ha graduado! Después de pasar cinco niveles y matar a seis generales, bajo la guía de 7 Mentores de la Fundación Apache, la comunidad Apache SeaTunnel se unió a 28 Commiters y 18 PMC, y lanzó 8 Apache Releases con los esfuerzos conjuntos de la comunidad. A través de un proceso de desarrollo transparente y una gestión de código fuente abierto, el proyecto Apache SeaTunnel ha ganado una amplia participación en la comunidad. En el medio, superaron muchas dificultades y desafíos, como el establecimiento y la localización de la comunidad, la distribución de energía, el trabajo en equipo y el crecimiento de la comunidad. Finalmente, el 1 de junio de 2023, Día del Niño, dedicaron a sus niños y adultos en todas las comunidades. Un regalo para ¡Día del Niño!

¡China finalmente tiene su propio proyecto superior para la sincronización e integración de datos de código abierto! Este es un gran paso para SeaTunnel, pero solo un pequeño paso para el código abierto de China. Creo que han surgido más proyectos excelentes de código abierto en China, y el negocio de código abierto de China también puede ayudar a los entusiastas chinos del código abierto a apoyar mejor a sus familias. ¡Y contribuciones de código abierto!

** InfoQ: SeaTunnel se graduó y se convirtió en el primer proyecto de alto nivel de la Fundación Apache en el campo de la integración de datos dominado por los chinos. ¿Qué experiencia puede compartir? ¿Especialmente en términos de dirigir una comunidad global? **

Gao Jun: Así como necesitamos comprender la cultura de la empresa cuando nos unimos a una nueva empresa, también debemos comprender la cultura de ASF antes de participar en el proyecto de código abierto de Apache. La cultura ASF es The Apache Way.

Si profundiza en el código abierto, encontrará que el código abierto no es simplemente una cuestión de código fuente abierto. El código abierto también está relacionado con la gestión comunitaria, la actividad comunitaria, la comunicación comunitaria, la cultura comunitaria, etc., lo que requiere que tener una comprensión más profunda de la forma Apache.

En vista de la experiencia anterior, Apache SeaTunnel tenía un profundo conocimiento de la importancia de Apache Way en la etapa inicial de ingreso a Apache Incubator. Por ejemplo, para la comunidad de código abierto, el concepto de Community Over Code debe estar arraigado en el corazón. , que también requiere que la comunidad haga preparativos y Se deben hacer esfuerzos para reducir el umbral para todos los interesados ​​en participar en el proyecto tanto como sea posible, o incluso crear un umbral cero, como desarrollar un plan de incentivos para la comunidad, hacer una guía para principiantes , seleccionando Good First Issues, rastreando el progreso de funciones importantes y obteniendo comentarios a través de entrevistas regulares con usuarios y sugerencias de optimización, respuestas regulares a preguntas de la comunidad sobre proyectos y comunidades, etc.

Las contribuciones de la comunidad no se limitan al código, y las contribuciones sin código a veces pueden incluso desempeñar un papel más valioso que el código, como usar su propia influencia para contribuir a la atención del proyecto, escribir artículos técnicos y no técnicos relacionados con el proyecto, y participar en diversas actividades organizadas por la comunidad, "apoyar" Apache SeaTunnel en varios momentos y ocasiones, recomendarlo a más usuarios, etc., son todos canales para participar en la comunidad.

Al mismo tiempo, Community Over Code también enfatiza la apertura, la comunicación y la cooperación. Apache SeaTunnel defiende estos conceptos, insiste en mantener la comunicación con las comunidades en el país y en el extranjero, aprender unos de otros y establecer comunicación con la comunidad Apache. Todas las discusiones tienen lugar colóquelo en correos electrónicos y problemas, y anuncie los principales avances y planes del proyecto y la comunidad a través de los canales de medios propios de la comunidad, para que la comunidad permanezca abierta y transparente.

Desde que entró en el período de incubación, Apache SeaTunnel ha realizado más de 20 reuniones en línea y fuera de línea con una serie de proyectos de código abierto en el país y en el extranjero, incluidos Apache Shenyu, Apache InLong, Apache Linkis, Apache Doris, IoTDB que se graduaron con éxito de la ASF. incubadora antes de Apache SeaTunnel, StarRocks, TEngine y otros proyectos maduros de código abierto, así como Meetups realizados conjuntamente con Trino, APISIX, Shopee y ALC Indore en los Estados Unidos, India y otras regiones en el extranjero. La cooperación y la comunicación entre comunidades promueven el desarrollo y la aplicación de tecnologías de código abierto. Apache SeaTunnel coopera con otros proyectos de código abierto para resolver problemas técnicos, lo que conduce a mejorar el nivel general de la ecología de código abierto y ampliar los límites de la ecología de código abierto.

Apache SeaTunnel también participa activamente en conferencias y exhibiciones técnicas en el país y en el extranjero para mostrar proyectos de código abierto y logros técnicos, y expandir la influencia y popularidad del proyecto a través de intercambios con expertos y desarrolladores de la industria.

Con el tiempo, la comunidad ha sufrido cambios cualitativos. A partir de las discusiones por correo electrónico de la comunidad y la visualización de datos de GitHub, encontrará que la comunidad de Apache SeaTunnel se ha vuelto verdaderamente activa y diversa.

** InfoQ: ¿Qué planes de futuro tiene Apache SeaTunnel en términos de código abierto? **

Gao Jun: Hay principalmente cinco aspectos:

  1. SeaTunnel mejorará aún más el rendimiento y la estabilidad del motor Zeta e implementará cambios DDL previamente planificados, procesamiento de datos de error, control de caudal y sincronización de varias tablas.
  2. SeaTunnel-Web también ingresará al estado Release desde el estado Alpha, permitiéndole definir y controlar todo el proceso de sincronización directamente desde la interfaz.
  3. Para fortalecer la cooperación de los componentes AGI, además de usar ChatGPT para generar conectores automáticamente, se fortalecen la base de datos vectorial y la conexión de complementos de modelos grandes, de modo que más de 100 fuentes de datos existentes se pueden conectar sin problemas a modelos grandes.
  4. Mejore la relación con la ecología aguas arriba y aguas abajo, e integre e interconéctese con Apache DolphinScheduler, Apache Airflow y otros ecosistemas de Apache.
  5. Después del soporte de documentos de Google Sheet, Feishu y Tencent, fortalezca la estructura de SaaS Connector, como ChatGPT, Salesforce, Workday, etc.

    ¡ Este artículo está respaldado por la tecnología de código abierto de Beluga !

おすすめ

転載: blog.csdn.net/weixin_54625990/article/details/131384185