Algunas reflexiones y tendencias futuras de StreamingWarehouse

¡3 millones de palabras! ¡La comunidad de entrevistas sobre aprendizaje de big data más completa de toda la red te está esperando!

una nota.

Tomemos como ejemplos los marcos de Hudi, Iceberg y Paimon, que admiten lectura y escritura por lotes/flujo de datos eficiente, seguimiento de datos y actualización de datos. Tiene algunas características que los almacenes de datos tradicionales en tiempo real y fuera de línea no tienen, principalmente en los siguientes aspectos:

Estos motores de almacenamiento son, naturalmente, almacenamiento integrado de flujo por lotes unificado. No solo admite el acceso por lotes a los datos completos de la tabla, sino que también admite el procesamiento completo de los datos de la tabla primero y luego el procesamiento de flujo incremental del registro de cambios;
Admite flujo UPSERT, esto es muy importante, el formulario de organización de archivos también es más eficiente (LSM);
Admite TimeTravel. En teoría, el procesamiento por lotes o flujo se puede realizar desde cualquier momento;
También existen otras operaciones de almacenamiento de datos fuera de línea.

Si construimos un nuevo sistema de data warehouse Streaming Warehouse basado en el framework Lake, todo nuestro desarrollo estará orientado a operaciones de Tabla y SQL puro.

Una arquitectura de este tipo resuelve el problema central:

Si el rendimiento es suficiente, se puede lograr un retraso comparable al de un enlace en tiempo real;
Integración natural de lotes y flujos, calibre consistente, alineación natural de la semántica informática, asegurando la coherencia de los datos;
Se pueden verificar los resultados intermedios, lo cual es una gran ventaja en comparación con el muy popular almacén de datos en tiempo real actual;
Es muy conveniente restaurar datos históricos;
Bajos costos de desarrollo y almacenamiento.

Esto también se menciona en muchos artículos: realice computación y almacenamiento integrados de flujo por lotes, admita procesamiento de flujo, por lotes y OLAP al mismo tiempo, y realice el procesamiento de datos en forma de "Tabla".

Algunos escenarios que se pueden reemplazar en la actualidad: por ejemplo, el retraso de un extremo a otro es aceptable a nivel de minutos, la lógica de datos es compleja y desea estar fuera de línea, y la coherencia en tiempo real es sólida y el tradicional escenarios de servicio en línea, como la creación de vistas materializadas y procedimientos almacenados con la base de datos como núcleo, etc.

Pero tenemos que decir que lo anterior son visiones ideales para el futuro, y muchos problemas no se han resuelto en la etapa actual, como que el retraso de un extremo a otro es mucho mayor que el de los escenarios puramente en tiempo real, dependiendo de el intervalo de tiempo de CheckPoint, etc.

Sin embargo, con la continua iteración y desarrollo de estos marcos, el futuro puede ser diferente.

Si este artículo te resulta útil, ¡no olvides darle "Me gusta", "Me gusta" y "Favorito" tres veces!