Reseña｜Streaming Lakehouse Meetup Beijing Station (con preguntas y respuestas y descarga de PPT)

Más fotos del evento: https://live.photoplus.cn/live/pc/53265145/#/

El 29 de julio, Streaming Lakehouse Meetup invitó a siete expertos técnicos de Alibaba y ByteDance a centrarse en la práctica de los datos de los CDC que ingresan al lago, la integración integral del lago y el almacén de Flink, las características clave de los lagos de datos de transmisión y el RSS unificado. de la tecnología más avanzada de Streaming Lakehouse y las últimas prácticas de la industria. Múltiples proyectos de código abierto, incluidos Flink, Paimon, Celeborn, Flink CDC y StarRocks, se reunieron para comunicarse con más de cien desarrolladores en el sitio.

Haga clic para ver el video del evento y el discurso PPT

Revisión de video de actividad y adquisición de PPT

lado de la computadora

Se recomienda ir a Apache Flink Learning Network :

Red de aprendizaje Apache Flink

Reseña de vídeo:

Streaming Lakehouse Meetup-Cloud Video-Alibaba Cloud Developer Community

terminal móvil

Revisión de video/descarga de PPT: siga la cuenta pública de Apache Flink, responda 0729

respuesta de preguntas en línea

P: ¿Cuál es la diferencia entre la arquitectura integrada del almacén del lago y la arquitectura MPP?

Respuesta: La mayor diferencia es que el lago de datos guarda todos los datos y tiene la flexibilidad de consulta. Sin embargo, debido al rendimiento de consulta extremadamente alto que requiere la arquitectura MPP, su costo de almacenamiento es relativamente alto y no se pueden guardar todos los datos.

P: Bajo el almacenamiento de objetos, ¿cómo equilibrar las tres demandas de archivos pequeños, velocidad de escritura de CDC de alto rendimiento y lectura de medidores descendentes en tiempo real tanto como sea posible? ¿Cómo ajustar los parámetros de la mesa Paimon?

Respuesta: Paimon fusiona automáticamente archivos pequeños. Si le preocupan los archivos pequeños en el sistema de archivos, puede reducir la retención de instantáneas. Administrar archivos | Rendimiento de escritura de Apache Paimon | Apache Paimon

P: ¿Se puede acelerar la eficiencia de las consultas subyacentes del almacenamiento con algo similar a Alluio?

Respuesta: Alluio se puede conectar para acelerar. Paimon en sí no guarda archivos en caché, pero el sistema de archivos que se usa a continuación puede ser un sistema de archivos en caché.

P: ¿Cuáles son algunas buenas sugerencias para ajustar los parámetros de Flink CDC?

Respuesta: Puede leer algunos artículos en el wiki de github de Flink CDC, y se presentan algunos artículos de mejores prácticas.

P: ¿Se puede mostrar la etiqueta en todas las tablas de Paimon en el enlace de datos al mismo tiempo?

Respuesta: En la actualidad, no es posible, y cada tabla se escribe por separado. Puedes lograr algo similar con la marca de agua. Administrar etiquetas | Tablas de consultas de Apache Paimon | Apache Paimon

P: Para colas de mensajes alternativas, si se requieren consultas de segundo nivel, ¿cómo puede hacerlo Paimon?

Respuesta: No, en la actualidad, la demora es solo de aproximadamente 1 minuto. La comunidad planea construir una cola integrada para admitir el segundo nivel.

P: ¿Cómo implementa Flink las ventanas incrementales?

Respuesta: No estoy seguro del significado específico de las ventanas incrementales. Flink SQL tiene tres tipos de agregación, sobre ventana, agregación de ventana y grupo ordinario por. Generalmente recomendamos el grupo ordinario por + estado TTL.

P: ¿Cuándo será compatible Flink CDC con Alibaba Cloud Hologres?

Respuesta: Hologres no es un producto de código abierto, y los estudiantes de la comunidad SDK no están familiarizados con él. En la actualidad, Hologres no tiene socios pequeños para contribuir a la comunidad, por lo que no lo admitirá a corto plazo.

P: ¿Cómo evitar el recálculo de tablas grandes después de perder el punto de control?

Respuesta: Después de perder el punto de control, todos los trabajos de Flink deben volver a realizarse sin estado. Puede conservar los puntos de control de los últimos días, de modo que la recuperación de un punto de control en el último día no sea muy costosa y no se repita. leer gran reloj.

P: ¿El tiempo de demora de la cola de mensajes de reemplazo de Paimon es el mismo que el ciclo de generación de instantáneas?

respuesta: si

P: ¿Cómo configurar el paralelismo completo e incremental de Flink CDC de forma independiente?

Respuesta: En la actualidad, solo necesita configurar la concurrencia de la etapa completa. Después de ingresar el incremento, puede modificar la concurrencia de origen de CDC y luego reiniciar el trabajo desde el último punto de control. Después de la versión 2.4.1, los recursos en la etapa completa se pueden liberar automáticamente, por lo que después de que la cantidad total ingrese al incremento, los recursos también se pueden reciclar hasta cierto punto sin cambiar la concurrencia.

Pregunta: Pregúntele a Oracle CDC, los registros de archivo de Oracle están llenos, ¿cómo puedo solucionarlo?

Respuesta: debe juzgar si el consumo descendente de los registros archivados es lento y puede ajustar las operaciones descendentes para mantenerse al día con el consumo. Además, si puede confirmar que las operaciones descendentes ya no se usan, puede borrar los registros archivados.

Pregunta: Me gustaría preguntarle al maestro, Flink CDC realiza la agregación directamente. Por ejemplo, ¿se restará el valor de sum cuando se elimine el valor de sum?

Respuesta: Sí, los datos de CDC proporcionados por Flink CDC se corresponden estrictamente con el registro de cambios en Flink SQL, por lo que la agregación de Flink SQL recuperará el valor correspondiente a la entrada eliminada en su base de datos.

P: La tarea por hora descendente debe esperar a que lleguen todos los datos de una determinada hora en Flink antes de ejecutarla. ¿Hay alguna buena manera de monitorear la llegada de todos los datos en la hora anterior?

Respuesta: Esto requiere que usted mismo haga el próximo desarrollo secundario, haga un punto de enterramiento en el fregadero y llame a la lógica personalizada (notifique al sistema de programación posterior) después de juzgar que se cumplen las condiciones.

Más

Ingrese al grupo de comunicación comunitaria DingTalk: busque el número de grupo ⬇️, participe en discusiones técnicas y obtenga soporte en tiempo real.

Grupo de comunicación Apache Paimon: 10880001919

Grupo de comunicación Flink CDC DingTalk: 33121212

Grupo de comunicación de uñas Flink Batch: 34817520

Grupo de usuarios de Celeborn DingTalk: 41594456

Haga clic para ver el video del evento y el discurso PPT