Algunas reflexiones y tendencias futuras de StreamingWarehouse

5781db0dd7bd0ce57bf6a93af7544c36.png¡3 millones de palabras! ¡La comunidad de entrevistas sobre aprendizaje de big data más completa de toda la red te está esperando!

una nota.

Tomemos como ejemplos los marcos de Hudi, Iceberg y Paimon, que admiten lectura y escritura por lotes/flujo de datos eficiente, seguimiento de datos y actualización de datos. Tiene algunas características que los almacenes de datos tradicionales en tiempo real y fuera de línea no tienen, principalmente en los siguientes aspectos:

  1. Estos motores de almacenamiento son, naturalmente, almacenamiento integrado de flujo por lotes unificado. No solo admite el acceso por lotes a los datos completos de la tabla, sino que también admite el procesamiento completo de los datos de la tabla primero y luego el procesamiento de flujo incremental del registro de cambios;

  2. Admite flujo UPSERT, esto es muy importante, el formulario de organización de archivos también es más eficiente (LSM);

  3. Admite TimeTravel. En teoría, el procesamiento por lotes o flujo se puede realizar desde cualquier momento;

  4. También existen otras operaciones de almacenamiento de datos fuera de línea.

Si construimos un nuevo sistema de data warehouse Streaming Warehouse basado en el framework Lake, todo nuestro desarrollo estará orientado a operaciones de Tabla y SQL puro.

Una arquitectura de este tipo resuelve el problema central:

  1. Si el rendimiento es suficiente, se puede lograr un retraso comparable al de un enlace en tiempo real;

  2. Integración natural de lotes y flujos, calibre consistente, alineación natural de la semántica informática, asegurando la coherencia de los datos;

  3. Se pueden verificar los resultados intermedios, lo cual es una gran ventaja en comparación con el muy popular almacén de datos en tiempo real actual;

  4. Es muy conveniente restaurar datos históricos;

  5. Bajos costos de desarrollo y almacenamiento.

Esto también se menciona en muchos artículos: realice computación y almacenamiento integrados de flujo por lotes, admita procesamiento de flujo, por lotes y OLAP al mismo tiempo, y realice el procesamiento de datos en forma de "Tabla".

Algunos escenarios que se pueden reemplazar en la actualidad: por ejemplo, el retraso de un extremo a otro es aceptable a nivel de minutos, la lógica de datos es compleja y desea estar fuera de línea, y la coherencia en tiempo real es sólida y el tradicional escenarios de servicio en línea, como la creación de vistas materializadas y procedimientos almacenados con la base de datos como núcleo, etc.

Pero tenemos que decir que lo anterior son visiones ideales para el futuro, y muchos problemas no se han resuelto en la etapa actual, como que el retraso de un extremo a otro es mucho mayor que el de los escenarios puramente en tiempo real, dependiendo de el intervalo de tiempo de CheckPoint, etc.

Sin embargo, con la continua iteración y desarrollo de estos marcos, el futuro puede ser diferente.

Si este artículo te resulta útil, ¡no olvides darle  "Me gusta",  "Me gusta"  y "Favorito"  tres veces!

961b57e38463f75e3152fee67a17c887.png

56575fe54d4f8d873b6fcb63ebedf953.jpeg

Se lanzará en toda la red en 2022 | Modelo de habilidades y guía de aprendizaje a nivel de experto en big data (Shengtian Banzi)

La peor era de Internet puede estar aquí

Estoy estudiando en la universidad de Bilibili, especializándome en big data.

¿Qué estamos aprendiendo cuando aprendemos Flink?

193 artículos golpearon violentamente a Flink, debes prestar atención a esta colección

Principales problemas y optimización del entorno de producción de Flink, Pabellón de Escrituras Tibetanas de Alibaba YYDS

Flink CDC ¡Estoy seguro de que Jesús no puede retenerlo! | Inventario de problemas en línea de Flink CDC

¿Qué estamos aprendiendo cuando aprendemos Spark?

¡Entre todos los módulos de Spark, me gustaría llamar a SparkSQL el más fuerte!

Hard Gang Hive | Resumen de la entrevista de ajuste básico de 40.000 palabras

Una pequeña enciclopedia de metodologías y prácticas de gobernanza de datos

Una pequeña guía para la construcción de retratos de usuarios bajo el sistema de etiquetas.

Texto de 40.000 palabras | Conceptos básicos y práctica de ClickHouse y análisis de perspectiva completo de ajuste

[Entrevista y crecimiento personal] Más de la mitad de 2021, la experiencia del reclutamiento social y el reclutamiento escolar

Comienza otra década en la dirección del big data | Finaliza la primera edición de “Hard Gang Series”

Artículos que he escrito sobre crecimiento/entrevista/avance profesional

¿Qué estamos aprendiendo cuando aprendemos Hive? "Secuela de Hardcore Hive"

Supongo que te gusta

Origin blog.csdn.net/u013411339/article/details/132419194
Recomendado
Clasificación