Primera cumbre asiática en línea de Apache: flujo de trabajo y sesión de gobierno de datos

fondo

Big data se ha desarrollado durante 10 años y ha penetrado en varias industrias.

exigen cada vez más, lo que hace que los grandes datos

Las dependencias entre las empresas son cada vez más complejas. Además, también creo que los socios de datos deben tener dificultades para administrar los datos. Junto con los requisitos de la era actual nativa de la nube, ¿cómo podemos manejar las tareas de big data? mejor y más fácil relación y mejor implementación del gobierno de datos?

Los proyectos estrechamente relacionados bajo Apache incluyen Apache DolphinScheduler, Apache Atlas, Apache Airflow, Apache Oozie y Apache Griffin. Además, también invitamos a socios de la comunidad de Apache Hudi, un marco de lago de datos muy popular, a compartir la "Práctica del programador de delfines basado en el lago de datos de Apache Hudi", así que permanezca atento. Primero, permítanme presentarles el evento anual de la Fundación Apache.

ApacheCon

@Serie Oficial de Conferencias Globales

ApacheCon es la serie de conferencias mundiales oficiales de Apache Software Foundation (ASF), que se celebra anualmente. Como una prestigiosa fiesta del código abierto, es una de las conferencias más esperadas en la industria del código abierto.

Desde su inicio en 1998, ApacheCon ha atraído a más de 350 proyectos técnicos y diferentes comunidades para participar en ella. Reúne a expertos de la industria y maestros en el país y en el extranjero para compartir las últimas tendencias y prácticas tecnológicas en el mundo y discutir "la tecnología del mañana". "juntos, para que la mayoría de los entusiastas de la tecnología vean las últimas tendencias y el progreso de varias fronteras tecnológicas, y actualicen mejor sus pilas de tecnología.

Este año es la primera vez que el comité organizador realiza una conferencia ApacheCon en línea para la región de Asia y el Pacífico: ApacheCon Asia. La conferencia de Asia dividirá más de 140 temas de China, Japón, India, Estados Unidos y otros países en 14 foros, incluidos big data, incubadora, API/microservicio, Internet, integración y cultura de código abierto.

Acerca de Workflow/Data GovernanceWorkflow and Data Governance Forum

El flujo de trabajo y el gobierno de datos programan y procesan el procesamiento de datos complejos de manera ordenada, y administran y controlan los metadatos, la relación de sangre y la calidad de los datos. Varios proyectos en ASF brindan varias soluciones de flujo de trabajo de datos, como Apache DolphinScheduler, Apache Airflow, Apache Oozie, mientras que Apache Atlas y Apache Griffin brindan varios metadatos y administración de calidad de datos. En el tema de flujo de trabajo y gobierno de datos, no solo aprenderá sobre la experiencia práctica de los usuarios de primera línea en la aplicación de estos proyectos de Apache a proyectos específicos, sino también sobre los últimos avances en la ecología de estos proyectos de Apache. tiempo, también mirará hacia el futuro de la programación de datos y el gobierno de datos.

Productor

Guo Wei

Miembro de Apache y Apache DolphinScheduler PMC

Puntos destacados de la agenda del 7 y 8 de agosto

@Apache

FLUJO DE TRABAJO/GOBERNANZA DE DATOS

Práctica de la herramienta de programación DolphinScheduler en operadores

Compartiendo invitado : Wang Xingjie

Hora : 7 de agosto a las 13:30

Introducción al tema:

Elegimos DolphinScheduler, un sistema de programación de código abierto que es más fácil de expandir, tiene un buen mecanismo de tolerancia a fallas y tiene una comunidad muy activa. Presentaremos el uso de las soluciones de programación DolphinScheduler en China Unicom para hacer frente a más de 100 000 tareas de programación diarias.

Introducción de invitados:

Wang Xing Jie

Después de graduarse en 2014, comenzó a participar en la investigación y el desarrollo de software, con 7 años de experiencia en investigación y desarrollo. Actualmente, es el principal responsable de la investigación y el desarrollo y la migración del sistema de programación de big data de China Unicom.

Herramienta masiva de programación de tareas complejas: Apache DolphinScheduler

Invitado para compartir: Qiang Guo

Hora: 7 de agosto a las 14:10

Introducción al tema:

Apache DolphinScheduler es una herramienta de programación que nació de la necesidad de una programación estable de tareas masivas y complejas. Este tema presentará a DolphinScheduler en torno a su estabilidad, facilidad de uso y otros aspectos. Al mismo tiempo, también traeremos 2.0 - diseño de arquitectura de microkernel.Después de 2.0, cada componente de DolphinScheduler se abrirá en forma de SPI, y los usuarios pueden realizar rápidamente sus propios requisitos de funciones sobre esta base.

Introducción de invitados:

qiang guo

Apache DolphinScheduler PMC, ingeniero de software senior, bueno en: comunicación de red, procesamiento de big data y computación

Práctica en profundidad del flujo de aire

Compartiendo invitado: Wu Lian

Hora: 7 de agosto a las 14:50

Introducción al tema:

Basado en el caso real de la plataforma Airflow en Shanghai Shuhe Technology, presente la práctica de la aplicación, operación y mantenimiento de Airflow y desarrollo personalizado en escenarios complejos:

Desafíos de escenas complejas:

Cómo garantizar una alta disponibilidad en la implementación distribuida entre nubes;
Cómo admitir de manera efectiva múltiples tipos de escenarios de programación;
Cómo garantizar una alta disponibilidad de trabajos ETL;
Cómo se lleva a cabo la gestión de la programación;
Cómo lograr la máxima automatización;

Al mismo tiempo para algunas necesidades comerciales:

Los analistas de datos tienen muchas necesidades de programación y es difícil desarrollar scripts DAG Python
¿El DAG al que pertenece un departamento o una persona no desea que otro personal del departamento lo edite, vea y programe manualmente?
La aprobación en línea de trabajos en el DAG es de baja eficiencia y alta carga de trabajo ¿Cómo mejorar la eficiencia y evitar algunas operaciones no estandarizadas?
¿Cómo desencadena el sistema de mensajes los lotes de trabajos?

Comparte el plan de optimización correspondiente:

Visualización de la configuración de DAG: los parámetros de DAG se configuran en la interfaz y los archivos de DAG se generan automáticamente en segundo plano.
Control de permisos de DAG: Empoderamiento de DAG por departamento y DAG, distinguiendo entre lectura, escritura y ejecución.
Monitoreo de estandarización de trabajos: Configure reglas de detección para monitorear si los trabajos cumplen con las reglas y ejecutar las indicaciones correspondientes.
Complemento de activación de eventos: reciba varios mensajes, como trabajos de sensor y AMQP, y active la ejecución del trabajo correspondiente.

Introducción de invitados:

wu lian

Ingeniero de desarrollo de big data de tecnología de la información de Shanghai DataSeed, 2 años de experiencia en el uso, mantenimiento y desarrollo de flujo de aire, tengo un conocimiento profundo del flujo de aire, espero que mi experiencia y comprensión puedan contribuir a la comunidad de código abierto de flujo de aire.

Práctica del programador Dolphin en el lago de datos basado en Apache Hudi

Compartiendo invitado: Zhao Yuwei

Hora: 7 de agosto a las 15:30

Introducción al tema:

Un lago de datos es una plataforma de gestión de datos de nivel empresarial para analizar diferentes tipos de fuentes de datos. La arquitectura del lago de datos garantiza la integración de múltiples fuentes de datos y admite múltiples modelos de datos para garantizar la precisión de los datos. Puede satisfacer las necesidades de análisis en tiempo real y también se puede utilizar como almacén de datos para satisfacer las necesidades de minería de datos por lotes. Por lo tanto, necesitamos un sistema de programación de tareas eficiente, estable y fácilmente escalable para coordinar las capacidades externas del lago de datos, como la ingesta de datos, el almacenamiento de datos, la exploración de datos, el descubrimiento de datos, el gobierno de datos, etc. Aquí compartiré por qué elegimos Apache DolphinScheduler como el sistema de programación de tareas y cómo permitimos que los usuarios de datos interactúen fácilmente con el lago de datos sin tener que prestar demasiada atención a los detalles técnicos.

Introducción de invitados:

Zhao Yuwei

Comprometido con el trabajo de desarrollo relacionado con Hadoop, la principal dirección de trabajo actual es la investigación y el desarrollo del sistema de programación de tareas.

Evolución de la arquitectura de Apache DolphinScheduler, una plataforma de programación de flujo de trabajo de Big Data de nueva generación

Compartiendo invitado: Lidong Dai

Hora: 8 de agosto a las 13:30

Introducción al tema:

Incluye principalmente las siguientes seis partes:

Primero, la introducción de DolphinScheduler

En segundo lugar, los puntos débiles de la plataforma de programación de flujo de trabajo de big data

Tercero, las ventajas de DolphinScheduler

Cuarto, la evolución arquitectónica de la versión 1.2 a la versión 1.3

Quinto, la hoja de ruta y la hoja de ruta de la Arquitectura 2.0

Finalmente, comparte algunas historias de usuarios.

Introducción de invitados:

LIDONG DAI

Presidente de Apache DolphinScheduler PMC y Apache Incubator PMC, más de 10 años de experiencia en Big Data, bueno en la construcción y optimización de grandes plataformas de datos

Práctica de servicio de calidad de datos basada en Apache DolphinScheduler

Compartiendo invitado: Sun Chaohe

Hora: 8 de agosto a las 14:10

Introducción al tema:

Este discurso es principalmente para compartir las ideas de diseño, los métodos de implementación y cómo aplicar los servicios de calidad de datos basados en DolphinScheduler en escenarios reales.

Introducción de invitados:

sol chaohe

Tiene una rica experiencia en el desarrollo de plataformas de big data, ama y participa activamente en el código abierto, y es un colaborador sénior de código de DolphinScheduler

Procesamiento de datos en Kubernetes usando Airflow

Compartiendo invitado: Luan Peng

Hora: 8 de agosto a las 14:50

Introducción al tema:

1. ¿Por qué usamos airflow+K8S?

2, flujo de aire oa/rbac/web

3. Airflow se ejecuta en docker/docker-compose/k8s

4, operador de kubernetes de flujo de aire

5. Complemento de pod de flujo de aire k8s

6. Airlfow actualización amigable

7. Uso en Tencent Music

Introducción de invitados:

Luan Peng

Tencent Music Data Center, dedicado a la construcción de una plataforma nativa de aprendizaje automático en la nube y contenido relacionado con la plataforma de datos

Explicación detallada y planificación del flujo de trabajo de DolphinScheduler DAG gran división JSON

Compartiendo invitado: lijinyong

Hora: 8 de agosto a las 15:30

Introducción al tema:

En la actualidad, la definición de procesos de DolphinScheduler utiliza un gran almacenamiento Json, que no es eficiente cuando la tarea es relativamente grande. Presentaré nuestra solución para resolver este problema, que también se envió a Apache DolphinScheduler y se lanzará en un futuro próximo.

Introducción de invitados:

lijinyong

Colaborador activo de la comunidad DolphinScheduler, activista de código abierto, actualmente trabaja en el departamento de big data de Zhengcai Cloud, se dedica al trabajo de arquitectura de plataforma de big data, es bueno en el diseño y desarrollo de plataformas de big data y herramientas de almacenamiento de datos, resolución de problemas en línea, etc.

Nos vemos en Workflow y Data Governance!!!

formas de registro

ApacheCon Asia 2021

6-8 de agosto

14 foros, más de 100 proyectos técnicos

Más de 140 discursos temáticos

Diálogo en línea con expertos y expertos en tecnología global.

3 días de evento de intercambio para todo clima

Gratis para asistir

Primera conferencia virtual en línea de ApacheCon Asia

6-8 de agosto de 2021

esperando la llegada de los amigos

Haga clic en el texto original para registrarse

ApacheCon Asia 2021

https://www.apachecon.com/acasia2021/

Haz clic para leer el texto original, puedes registrarte , iluminarlo y mirar, eres el mejor

Primera cumbre asiática en línea de Apache: flujo de trabajo y sesión de gobierno de datos

Supongo que te gusta