Presentación de CommunityOverCode Asia sobre el procesamiento de transmisiones

introducción

Después de varios años de desarrollo, la tecnología de big data ya no es solo un concepto, se ha practicado con éxito en varios segmentos de la industria. Con el creciente número de escenarios en tiempo real, las empresas han presentado mayores requisitos para la tecnología de procesamiento de big data.

El procesamiento de flujo se está convirtiendo rápidamente en una tecnología clave para modernizar las aplicaciones empresariales y mejorar el análisis de datos en tiempo real para aplicaciones basadas en datos, ya que puede ayudar a las empresas a obtener una ventaja competitiva respondiendo rápidamente a las condiciones cambiantes del mercado, el comportamiento del cliente y otros aspectos críticos para el negocio. información.

El tema de procesamiento de flujo de CommunityOverCode Asia 2023 (anteriormente ApacheCon Asia) le brindará la información más reciente sobre proyectos relacionados con Apache, ¡echemos un vistazo ahora!

Productor

Desliza el dedo hacia la izquierda y hacia la derecha para ver al productor

Li Yu (nombre de la flor: Jue Ding)

Miembro de ASF, miembro de Apache Flink y HBase PMC, campeón de Apache Paimon (incubación) y Celeborn (incubación), líder del equipo Alibaba Cloud EMR, experto técnico sénior de Alibaba.

wang xin

Miembro de Apache, Apache Storm, Incubator PMC Member, Committer, Apache RocketMQ, Apache IoTDB, Apache StreamPipes Committer, jefe de datos en tiempo real del Departamento de Big Data de Ant Group.

Temas

El procesamiento de datos en streaming es una tendencia en el campo de big data de hoy en día. Muchas empresas están ansiosas por obtener información sobre sus datos de una manera más oportuna, y el pensamiento anterior de "procesamiento por lotes" está siendo reemplazado rápidamente por el procesamiento de flujo. Cada vez más empresas, sin importar cuán grandes o pequeñas sean, están repensando la arquitectura técnica con el rendimiento en tiempo real como primera consideración y comenzando a utilizar potentes motores de código abierto como Apache Flink, Apache Spark, Apache Kafka, Apache Pulsar, Apache Storm, Apache StreamPark (incubando), Apache Paimon (incubando), etc. construyen sus propias plataformas informáticas en tiempo real.

En este tema, aprenderá sobre la experiencia real de los fabricantes de primer nivel que aplican estos proyectos de Apache a sus entornos de producción, así como el desarrollo más reciente de la ecología de estos proyectos de Apache y la dirección de desarrollo futuro de la tecnología de flujo de computación.

Puntos destacados de la agenda

18 de agosto, 13:30 - 16:45

■ Tema del discurso: Apache Flink Stream Batch Adaptive Shuffle

Tiempo para compartir: 13:30 - 14:00, 18 de agosto

Introducción al tema:

En Flink Forward Asia en 2022, propusimos por primera vez la arquitectura Flink Shuffle 3.0 con fusión de transmisión por lotes nativa en la nube y autoadaptación como núcleo.

La nueva arquitectura Shuffle tiene las siguientes ventajas:

1. Más adaptable a la disposición de recursos y las características de aislamiento del entorno nativo de la nube;

2. Combina las ventajas de la transmisión tradicional y las tecnologías aleatorias por lotes;

3. Puede realizar ajustes adaptativos según los recursos y las condiciones de carga en tiempo de ejecución, lo que facilita su uso.

En este intercambio, presentaremos el último progreso y la planificación futura de la versión 1.18 de Flink en este sentido.

Introducción de invitados

Song Xintong 丨 Experto técnico sénior de Alibaba Cloud

Apache Flink PMC Member & Committer, experto técnico sénior de Alibaba Cloud, líder del equipo Alibaba Cloud Flink Shuffle y SDK.

Introducción de invitados

Tan Yuxin丨Ingeniero sénior de desarrollo en la nube de Alibaba

Trabajó en el departamento de big data de código abierto de Alibaba Cloud Computing Platform, centrándose en el proyecto de código abierto Apache Flink.

■ Tema de discurso: creación de un sistema de procesamiento de gráficos de transmisión basado en Apache Calcite/Gremlin

Tiempo para compartir: 14:00 - 14:30, 18 de agosto

Introducción al tema:

La computación de flujo típica está dirigida principalmente a los escenarios de procesamiento de modelos de tablas, pero la forma de realizar el procesamiento y análisis de flujo en modelos gráficos es actualmente difícil de admitir para la computación de flujo general. Este intercambio presenta principalmente a GeaFlow, un motor de gráficos de flujo de desarrollo propio de ant, y cómo GeaFlow puede crear un lenguaje de consulta de gráficos de flujo en torno a Apache Calcite y Apache Gremlin. Al mismo tiempo, también compartiremos la práctica y la aplicación de la computación de diagramas de flujo en Ant.

Introducción de invitados

Experto técnico sénior de Pan Zhenxuan丨Ant Group

Experto técnico sénior de Ant Financial, actualmente a cargo del equipo de computación de gráficos de flujo del Departamento de Computación de Ant Graph. Se unió a la plataforma de datos de Alibaba Group en 2012, se unió al departamento de tecnología de datos de Ant Group en 2016 y experimentó la evolución de la computación en tiempo real de Ali y Ant de 0 a 1. Desde finales de 2017, ha sido responsable de la construcción de el sistema de gráficos de transmisión y el equipo, de 0 a 1. El sistema de gráficos de flujo de Ant. Tener una comprensión profunda de la computación en tiempo real y la computación gráfica, así como los escenarios de aplicaciones de nivel superior.

■ Tema del discurso: práctica de producción informática en tiempo real a gran escala de China Unicom basada en Apache StreamPark

Tiempo para compartir: 14:30 - 15:00, 18 de agosto

Introducción al tema:

1. La plataforma informática en tiempo real de big data admite el procesamiento de baja latencia basado en eventos y el procesamiento de datos integrado por lotes, lo que respalda negocios en tiempo real de más de 30 organizaciones internas y externas y más de 10,000 suscripciones de servicios de datos, procesando 2.3 billones de piezas de datos todos los días, más de 600 TB de volumen de datos, más de 480 servidores exclusivos para la escala de clúster, sirviendo a más de una docena de líneas de productos de producción empresarial.

2. Basado en la plataforma de gestión integral Apache StreamPark para operaciones informáticas en tiempo real, admite la gestión de trabajos informáticos en tiempo real de más de 500 Flink ON YARN en el entorno de producción y completa la gestión de proyectos, la gestión de trabajos, la gestión de equipos, y permisos a través de un proceso de operación visual y conciso Gestión, gestión de alarmas, gestión de registros, gestión de versiones, gestión de clústeres, configuración de recursos, Flink JAR, Flink SQL, monitoreo de pantalla grande y otras funciones de gestión realizar la gestión del ciclo de vida del trabajo en tiempo real y ayudar al equipo resuelva el atolladero de la operación y el mantenimiento del trabajo y mejore la eficiencia de la gestión, reduciendo la tasa de fallas, mejorando la calidad del soporte comercial y realizando completamente la integración de la informática en tiempo real y la gestión basada en plataforma.

Introducción de invitados

Mu Chunjin丨Director de I+D de Big Data Plataforma informática en tiempo real de China Unicom Digital Technology Co., Ltd.

Apache StreamPark PMC, jefe de I+D de la plataforma de computación en tiempo real de big data, responsable del desarrollo, la operación y el mantenimiento de la computación en tiempo real de Flink a un nivel de billón, y la construcción de la plataforma.

■ Tema del discurso: Linaje de campo de FlinkSQL y solución de permiso de datos

Tiempo para compartir: 15:00 - 15:30, 18 de agosto

Introducción al tema:

El linaje de datos y la seguridad de los datos son capacidades indispensables para construir un almacén de datos de nivel empresarial. En los últimos años, con la creciente demanda de big data en tiempo real en todos los ámbitos de la vida, los almacenes de datos en tiempo real representados por Flink han surgido rápidamente. Sin embargo, debido al tiempo de desarrollo relativamente corto, el campo de los almacenes de datos fuera de línea basados en Apache Ranger y Apache Atlas son relativamente maduros. El linaje de datos y las soluciones de seguridad de Flink SQL aún no son compatibles con Flink SQL, y confiar en Ranger y Atlas conducirá a una implementación, operación y mantenimiento excesivos del sistema. Por lo tanto, es particularmente importante realizar el linaje de campo y la gestión de autoridad de datos de FlinkSQL bajo la premisa de cero intrusiones en el código fuente de Flink y Calcite. Este intercambio presentará soluciones relacionadas en detalle para ayudar a la audiencia a construir Atlas+Ranger en el campo del almacén de datos en tiempo real de Flink.

Introducción de invitados

Bai Song丨Director general adjunto del Centro de I+D de Hangzhou Shulan Technology Co., Ltd.

Cofundador de Shulan Technology Co., Ltd., director general adjunto del centro de I+D, tiene 9 años de experiencia en investigación y desarrollo de plataformas de big data, centrándose en la investigación en los campos de big data, computación en tiempo real y datos. permisos Responsable de la investigación y el desarrollo de los productos principales de la empresa Shuqi Platform y Shuqi EMR En la actualidad, los productos Shuqi se han convertido en las herramientas de infraestructura para cientos de empresas nacionales y extranjeras para construir plataformas de datos, como CITIC Group, Foxconn, Vanke, BMW, Grupo de Inversión en Comunicaciones de Zhejiang, etc.

■ Tema del discurso: Transmisión de Apache Kudu dentro de Apache Flink

Tiempo para compartir: 15:45 - 16:15, 18 de agosto

Introducción al tema:

Hasta ahora, CDC no es compatible con Apache Kudu, por lo que no hay forma de leer datos en un estilo de transmisión como otras fuentes de datos habilitadas para CDC cuando se integra con Apache Flink. Para superar esto, se ha creado un conector de origen Apache Flink para desbloquear la capacidad de Apache Kudu de transmitir los datos de forma continua e incremental. En este discurso, discutiremos y compartiremos el diseño detallado y la implementación de la solución.

Introducción de invitados

Wei Chen丨Ingeniero de software del personal de eBay

Wei se está enfocando en potenciar la plataforma de notificación de eBay aprovechando las tecnologías de procesamiento de transmisión y big data. También es escritor de blogs de tecnología y contribuye activamente en la comunidad de código abierto. Wei recibió su licenciatura y maestría de la Universidad Jiao Tong de Shanghai.

■ 演讲议题：Dando forma al futuro: presentación de análisis de transmisión de alta concurrencia con Apache Druid

Tiempo para compartir: 16:15 - 16:45, 18 de agosto

Introducción al tema:

El procesamiento de flujo está evolucionando rápidamente para cumplir con los requisitos de alta demanda en tiempo real del mundo actual basado en datos. A medida que las organizaciones buscan aprovechar los conocimientos en tiempo real que ofrece la transmisión de datos, la necesidad de plataformas de análisis robustas y altamente concurrentes nunca ha sido tan grande.

Esta presentación presenta Apache Druid, un almacén de datos moderno y de código abierto diseñado para este tipo de cargas de trabajo analíticas en tiempo real. La fortaleza clave de Apache Druid radica en su capacidad para ingerir cantidades masivas de datos de eventos y proporcionar consultas en segundos, lo que lo convierte en una opción líder para el análisis de transmisión de alta concurrencia. Nuestra exploración cubrirá la arquitectura, sus principios subyacentes, los principios de ajuste y las características únicas que la hacen óptima para casos de uso de alta concurrencia. Nos sumergiremos en las aplicaciones de la vida real, demostraremos cómo Druid aborda el desafío de la visibilidad inmediata de los datos y discutiremos su papel en el impulso de análisis interactivos y exploratorios en la transmisión de datos.

Los participantes obtendrán una comprensión profunda del valor de Apache Druid en el panorama en rápida evolución del análisis de transmisión y estarán equipados con el conocimiento para aprovechar su poder en sus propios entornos de uso intensivo de datos. Únase a nosotros mientras nos adentramos en el futuro de la analítica en tiempo real, descubriendo cómo 'Dar forma al futuro: Revelando la analítica de transmisión de alta concurrencia con Apache Druid'.

Introducción de invitados

Tijo Thomas丨 Imply Data inc Arquitecto principal de soluciones

ResumenLiderar con gran pasión por la tecnología de big data, con más de 18 años de experiencia en la industria del software (ingeniería, servicio profesional, gestión de productos). Ayudar al cliente en el campo, negociar con el cliente sobre la solicitud de funciones y alinearlos con la hoja de ruta del producto Amplia experiencia en gestión, arquitectura, diseño e implementación de aplicaciones, marcos y plataformas de Big Data. Más de 4 años de experiencia como arquitecto de soluciones Experiencia en diseño e implementación de plataforma SAAS altamente escalable para Cloud público. Poseer dos patentes en el área de Big Data.

19 de agosto, 13:30 - 16:45

■ Tema del discurso: práctica de integración de datos en tiempo real de Alibaba Cloud basada en Flink CDC

Tiempo para compartir: 13:30 - 14:00, 19 de agosto

Introducción al tema:

CDC (Change Data Capture) es una tecnología utilizada para capturar cambios de la base de datos. Flink CDC es un representante de código abierto del marco de integración de datos en tiempo real, con ventajas técnicas como integración incremental completa, lectura sin bloqueo, lectura concurrente y arquitectura distribuida. , muy popular en la comunidad de código abierto. Flink CDC es compatible con potentes capacidades de procesamiento de datos. Puede realizar asociaciones, agregaciones y ampliaciones en tiempo real de los datos de la base de datos a través de SQL. Con la rica ecología descendente de Flink, los datos procesados se pueden escribir fácilmente en Kafka, Hudi, Iceberg, Doris, etc. , para realizar la entrada de datos en tiempo real en el lago y el almacén. En este intercambio, primero presentaremos el diseño central y la implementación clave de la tecnología Flink CDC, y explicaremos las nuevas funciones de la versión 2.4.0 en detalle. Luego, combínelo con escenarios comerciales específicos, comparta las soluciones del Flink CDC interno de Alibaba Cloud para los puntos débiles comerciales en diferentes escenarios, como el escenario de ingresar al lago y al almacén, y el problema del vencimiento de Binlog.

Introducción de invitados

Ruan Hang丨Alibaba Cloud Ingeniero sénior de I+D

Ingeniero sénior de I+D de Alibaba Cloud, mantenedor de CDC de Flink y colaborador de Apache Flink.

■ Tema del discurso: análisis profundo de la práctica de producción informática en tiempo real de On Kubernetes a gran escala de Ziroom basada en Apache StreamPark

Tiempo para compartir: 14:00 - 14:30, 19 de agosto

Introducción al tema:

1. En este discurso, discutiremos en profundidad cómo usar Apache StreamPark, una plataforma integral de administración de trabajos de computación en tiempo real, para administrar finamente más de 300 trabajos en tiempo real de Flink On Kubernetes. Apache StreamPark nos brinda una interfaz visual intuitiva para ayudarnos a administrar muchas funciones clave, incluido el desarrollo de trabajos de Flink, la implementación de trabajos en Kubernetes, la administración de imágenes de Flink Docker, la administración de plantillas de pod de Flink Kubernetes, etc.

2. También hemos explorado algunas prácticas innovadoras basadas en StreamPark: nos hemos combinado aún más con el sistema de programación para realizar la sincronización de datos fuera de línea basada en FlinkSQL, optimizando así el proceso de procesamiento de datos.

A través de Apache StreamPark, hemos realizado la gestión del ciclo de vida completo de los trabajos en tiempo real, mejorando en gran medida la eficiencia del desarrollo y la gestión. Este proceso demuestra vívidamente las poderosas capacidades de la gestión de plataformas informáticas en tiempo real y su gran valor en el entorno de producción real.

Introducción de invitados

Chen Zhuoyu丨Ziroom Big Data Platform Ingeniero de I+D

Apache StreamPark PPMC.

■ Tema del discurso: Flink K8S Operator AutoScaling

Tiempo para compartir: 14:30 - 15:00, 19 de agosto

Introducción al tema:

El procesamiento de transmisiones se encuentra en el campo de los grandes datos de hoy, entre los cuales Apache Flink es un caballo oscuro que sigue apareciendo frente a todos, pero los desafíos de operación y mantenimiento las 24 horas que trae no se pueden ignorar. En el contexto actual de reducción de costos y aumento de la eficiencia, la utilización eficaz de los recursos se ha convertido en el foco de atención de todos. Este discurso elabora en detalle el subproyecto derivado de la comunidad Apache Flink: Operador Flink K8S, presenta brevemente el origen y el historial de desarrollo de este proyecto, y presenta la función de sintonización automática introducida en la última versión.-271) función para explicar su principios de trabajo y mejores prácticas en detalle, y al mismo tiempo presentar la función de actualización continua (FLIP-291) que la comunidad está implementando, y finalmente presentar algunos planes futuros de la comunidad actual de Flink en este trabajo.

Introducción de invitados

Zhengyu Chen丨Ingeniero sénior de desarrollo de Big Data de Really Fun Games

Apache Flink/Streampark Contributor, ha estado involucrado en el desarrollo de datos en la industria de los juegos durante mucho tiempo y actualmente está a cargo de la construcción de la plataforma de trabajo de implementación de big data nativa de la nube Flink y el desarrollo de trabajo en la empresa. es una inteligencia Flink integral para construir, implementar y enviar trabajos para juegos realmente interesantes Plataforma operativa, plataforma anti-trampas y plataforma de integración de datos.

■ Tema de voz: base de datos de transmisión RSQLDB basada en la cola de mensajes

Tiempo para compartir: 15:00 - 15:30, 19 de agosto

Introducción al tema:

Con la profundización de la digitalización y el crecimiento explosivo de los datos, se presentan requisitos cada vez más altos para el tiempo real y la corrección del procesamiento de datos, y la computación de flujo surge a medida que los tiempos lo requieren. Al mismo tiempo, los productos de colas de mensajes, como plataformas de transferencia de datos, se utilizan ampliamente en las arquitecturas informáticas de big data, y existen innumerables casos de computación continua a través de colas de mensajes/motores de mensajes. Sin embargo, en la era de la computación en la nube, el costo de uso se ha convertido en el objetivo principal del diseño o evolución de la arquitectura. RSQLDB es un motor informático de flujo distribuido basado en la cola de mensajes RocketMQ como almacenamiento. Admite al menos 2 nodos para la implementación de producción, y el método de interacción SQL estandarizado reduce en gran medida el umbral de uso; funcionalmente, RSQLDB admite ventanas, JOIN y recuperación de estado, etc.

Esta presentación introducirá RSQLDB desde los siguientes aspectos:

1. La evolución de la computación de flujo, por qué se necesita RSQLDB;

2. Principio de diseño de la arquitectura RSQLDB;

3. La práctica de aplicación de RSQLDB en Alibaba Cloud.

Introducción de invitados

Ni Ze丨Aliyun, Apache RocketMQ Committer, mantenedor de RocketMQ Streams, mantenedor de RSQLDB

Apache RocketMQ Committer, mantenedor de RocketMQ Streams, mantenedor de RSQLDB, experto en computación de investigación y desarrollo del equipo de mensajería nativo en la nube.

■ Tema del discurso: Estado de la API de Scala en Apache Flink

Tiempo para compartir: 15:45 - 16:15, 19 de agosto

Introducción al tema:

Como desarrollador de Scala que escribe un nuevo trabajo de Flink, espera usar la última versión de Scala 3, en lugar de la que se compiló con Flink. La compatibilidad con Scala 2.13 y Scala 3 no fue realmente posible hasta que salió Flink 1.15. En esta charla, revisaremos cómo se hizo la API de Scala en Apache Flink antes de la versión 1.15 y qué ha cambiado en esa versión. Apache Flink eligió una forma bastante opuesta para permitir que los desarrolladores de Scala usen cualquier versión de Scala que no sea el proyecto Apache Spark y esa es una discusión interesante por sí sola.

Durante esta charla, repasaremos el proyecto de ejemplo de SBT para crear trabajos de Flink con Scala 3. Veremos las opciones actuales de la comunidad de contenedores de Scala para la API de Java de Flink y los desafíos relacionados con eso. Como resultado, veremos que usar Scala en trabajos de Flink es mucho más conveniente que escribir sus trabajos de transmisión con la API de Java. Una introducción a Scala CLI hace que toda la experiencia de empaquetado de Scala Jobs sea pura alegría.

Introducción de invitados

Alexey 丨 Arquitecto de soluciones de Ververica

Alexey es un arquitecto de soluciones que ha trabajado durante los últimos 6 años en soluciones y productos de datos. En Ververica, se está enfocando en ayudar a los clientes a resolver sus desafíos al adoptar el procesamiento de flujo de datos con Apache Flink. Entre sus proyectos y empresas anteriores desarrolló diferentes sistemas como Data Lakes, Data Integration y Data Virtualization Layers. También ha dedicado muchos años al desarrollo de servicios de datos para bancos de inversión, incluido el software de comercio de divisas. En su tiempo libre, también contribuye a varios proyectos de código abierto o inicia el suyo propio por diversión. Sus hobbies son la astronomía, tocar música y el gimnasio.

■ Tema del discurso: Práctica de construcción de la plataforma informática en tiempo real Xiaomi Flink

Tiempo para compartir: 16:15 - 16:45, 19 de agosto

Introducción al tema:

Este intercambio se centrará en la construcción de una plataforma informática en tiempo real, combinada con la propia experiencia de práctica comercial de Xiaomi, compartirá la exploración y construcción de Xiaomi en el campo de la informática en tiempo real y creará una plataforma informática en tiempo real unificada con flexibilidad de recursos, bajo costo y facilidad de uso.

Esquema de contenido:

1. Introducción a la plataforma de computación en tiempo real de Xiaomi Esta parte presentará la descripción general del negocio de la computación en tiempo real de Xiaomi e interpretará los puntos problemáticos y las soluciones encontradas junto con la evolución y el desarrollo de la plataforma de computación en tiempo real de Xiaomi.

2. Construcción de la plataforma informática en tiempo real Esta parte presentará la arquitectura general de la plataforma informática en tiempo real de Xiaomi y explorará la usabilidad de la plataforma informática en tiempo real de Xiaomi en combinación con la gestión unificada de metadatos, la gestión de autoridad, el linaje y la gestión de programación.

3. Operación, mantenimiento y gobierno de la plataforma Esta parte explorará en profundidad la operación, el mantenimiento y el gobierno de la computación en tiempo real, compartirá la exploración de Xiaomi en la capa del marco y la capa de la plataforma, y hará que la plataforma de computación en tiempo real de Xiaomi tenga recursos a través de la producción bajo el guía de la metodología de circuito cerrado de gobernanza Elasticidad, bajo costo y capacidades fáciles de usar.

4. Resumen y prospecto Resuma brevemente el contenido compartido esta vez y analice y anticipe la dirección de la evolución futura de la plataforma informática en tiempo real.

Introducción de invitados

Chen Zihao丨Ingeniero de I+D de software de Xiaomi

Ingeniero de I+D de software de Xiaomi, principalmente responsable de la plataforma de computación en tiempo real de Xiaomi y del desarrollo del kernel del framework Flink.

Agenda temática

Como la serie de conferencias globales oficiales de Apache Software Foundation (ASF), CommunityOverCode Asia atrae cada año a participantes y comunidades de todos los niveles del mundo para explorar la "tecnología del mañana" . Del 18 al 20 de agosto , en el próximo CommunityOverCode Asia 2023, podrá experimentar de cerca los últimos desarrollos y las innovaciones emergentes del proyecto Apache.