¿Construir un lago o construir un almacén? StarRocks: ahora el lago y el almacén se pueden integrar en uno

Desde datos hasta aplicaciones de modelos grandes, el 25 de noviembre se celebró la Conferencia Hangzhou Yuanchuang para compartir consejos de desarrollo.

El 17 de noviembre se celebró en Shanghai la cumbre anual de intercambio de tecnología a gran escala de StarRocks, StarRocks Summit 2023, en la que participaron expertos en big data de empresas líderes como Ping An Bank, China Resources, Tencent Games, Alibaba Cloud, Yili, Midea y JD.com. Todos compartieron sus experiencias en big data. Las últimas tecnologías y mejores prácticas en el campo del análisis de datos atrajeron a cientos de representantes de usuarios empresariales y desarrolladores para escuchar y comunicarse.

Esta es la tercera vez que StarRocks celebra una cumbre anual de intercambio de tecnología. Como producto de base de datos OLAP de código abierto líder en tecnología, StarRocks siempre ha sido el favorito de los grandes usuarios. Hasta ahora, más de 300 empresas con un valor de mercado de mil millones de dólares han utilizado StarRocks y el número de usuarios de la comunidad ha superado los 10.000. En esta cumbre, Zhang Youdong, CTO de Jingzhou Technology y miembro de StarRocks TSC, también compartió los últimos avances de StarRocks con todos.

El año pasado, StarRocks lanzó tres versiones principales: 2.5, 3.0 y 3.1. La arquitectura de separación informática y de almacenamiento lanzada en la versión 3.0 es la primera en la industria de código abierto. Después de actualizar a una arquitectura de separación de almacenamiento e informática, los costos de almacenamiento de los usuarios se pueden reducir en un 80%. Dado que los nodos informáticos no tienen estado, la disponibilidad informática se puede mejorar mediante la rápida elasticidad y la implementación de zonas de disponibilidad cruzada, y los recursos informáticos se pueden aislar físicamente. Escalado elástico independiente bajo demanda.

A partir de la versión 3.1, cuando la caché local está activada, el rendimiento bajo la arquitectura de separación de cálculo y almacenamiento está cerca del nivel del almacenamiento local.

Al mismo tiempo, las capacidades de análisis del almacén de lagos de StarRocks ahora son muy completas y no solo admiten catálogos internos, de lago de datos, JDBC, ES y otros, sino que también admiten análisis conjuntos entre fuentes de datos.

Además, las capacidades del modelo de clave principal se han mejorado continuamente durante el año pasado. Ya admite índices persistentes y de memoria completa, y admite capacidades de actualización parcial y condicional. En términos de rendimiento, para escenarios de actualización por lotes, presione En el modo de actualización de columnas, el rendimiento mejora más de 10 veces en comparación con la actualización de filas.

Zhang Youdong dijo que la tendencia futura de la evolución de los datos es integrar lagos y almacenes. Los usuarios no necesitan prestar atención a si construir un lago o un almacén. Ya sea construir un lago de datos o un almacén de datos, el objetivo final de una empresa es resolver problemas de análisis de datos a bajo costo y de manera eficiente. Después de tener una serie de funciones pesadas, como separación de cálculo y almacenamiento, análisis de almacén de lagos y vistas materializadas, StarRocks ha realizado la actualización al motor Lakehouse. Con la ayuda de StarRocks, puede tener las ventajas tanto del lago de datos como del almacén de bases de datos. .

Entonces, ¿cómo se implementa exactamente StarRocks? ¿Qué dirección tomará a continuación? Veamos qué dijo Zhang Youdong——

P1: StarRocks ha introducido la arquitectura de separación de almacenamiento y cálculo desde 3.0. Entonces, en comparación con la integración de almacenamiento y cálculo, ¿cómo garantiza que el rendimiento no disminuya?

Zhang Youdong: Existe consenso en la industria de que el rendimiento de una arquitectura que separa el almacenamiento y la informática es menor que el del acceso a datos locales. Debido a que accede a los datos, la latencia aumenta. En la industria, la tecnología común ahora es acelerar mediante caché. Ya sea Snowflake u otros almacenes de datos populares o almacenes de lagos, todos se aceleran a través de Cache. StarRocks en realidad usa caché local aquí.

Porque en la mayoría de los escenarios comerciales actuales, los datos se pueden dividir en fríos y calientes. Por ejemplo, en la minería de datos, el valor de los datos en los últimos siete días o medio mes puede ser mayor que el valor de los datos en medio año y un año. atrás. Después de la separación del almacenamiento y el cálculo, después de que los datos se almacenan a través de este tipo de almacenamiento de objetos y almacenamiento unificado, el costo disminuye, pero ¿qué debo hacer si el acceso se vuelve más lento? Almaceno estos datos importantes a los que es necesario acceder con frecuencia en un disco SSD o NVMe local, y accederé a ellos localmente la próxima vez que los visite. Al mismo tiempo, hay memoria en la parte superior y el conjunto es un mecanismo de caché de varios niveles.

Debido a que Cache solo es responsable de almacenar datos importantes, su costo general es relativamente controlable. Tal vez tenga tres años de datos, pero mis datos activos son solo los últimos tres meses. Solo 1/10 del almacenamiento se almacena a través de medios de alto rendimiento, lo que no aumentará el costo total del almacenamiento, pero también garantiza esto Rendimiento de consultas de datos calientes.

P2: En la actualidad, la integración de lagos y almacenes es una demanda importante para el desarrollo de la industria. Si queremos realizar la integración de lagos y almacenes, ¿qué problemas técnicos deben resolverse? ¿En qué etapa se ha desarrollado la industria actualmente? ¿Y cuál es el efecto de la implementación?

Zhang Youdong: Si desea realizar análisis de datos, definitivamente elegirá entre un lago de datos y un almacén de datos: construir un almacén de datos o un lago de datos. Las ventajas y desventajas de los dos también son obvias.

La situación actual es que el data warehouse ha sido un concepto ampliamente aceptado debido a décadas de desarrollo, ha evolucionado desde el data warehouse original fuera de línea al actual data warehouse en tiempo real, el data lake, la generación anterior, se ha popularizado en el país a través del ecosistema Hadoop. Ahora muchas empresas han construido sistemas Hadoop, utilizando Hadoop para construir almacenes de datos, y luego evolucionaron de Hive a Iceberg y Hudi data lakes. Este es el status quo actual.

Estas dos rutas ahora están comenzando a fusionarse. Por ejemplo, los datos originalmente se administraban de manera uniforme en Hive, que es un lago grande, pero el rendimiento de la consulta no es suficiente, por lo que algunos de los datos se pueden importar a otro almacén de datos en tiempo real. - un producto como StarRocks. Para analizarlo internamente, esto conlleva el complicado proceso de ETL en los datos. O con el análisis del lago de datos y el análisis de los datos, los datos de la base de datos se pueden analizar directamente al mismo tiempo. Aunque estos dos se están integrando gradualmente en la práctica actual de muchas empresas, después de todo, siguen siendo dos cosas diferentes. En última instancia, la complejidad de su mantenimiento sigue siendo un gran desafío para las empresas. Pero en la evolución futura, definitivamente avanzará en la dirección de la integración, y ahora también está en este camino, y algunas empresas líderes ya han tomado la iniciativa y han logrado la integración de lagos y almacenes.

Una vez integrados el lago y el almacén, el efecto que se logra es el almacenamiento de datos unificados y el análisis unificado, y la gestión de toda la pila de tecnología de datos es más sencilla.

P3: Con el surgimiento de modelos grandes , habrá un crecimiento "explosivo" de datos no estructurados. ¿Qué desafíos plantea para el lago de datos subyacente, la integración del lago-almacén y otras arquitecturas? ¿Cuáles son las posibles combinaciones con bases de datos vectoriales? ¿Puede StarRocks convertirse en una arquitectura técnica para big data y grandes modelos en el futuro?

Zhang Youdong: Actualmente, los modelos grandes, incluida la IA, son muy populares. Actualmente, todo el almacén del lago de StarRocks se centra en el procesamiento de datos estructurados y datos semiestructurados. El posicionamiento central actual está orientado a BI y la línea de IA se encuentra en un estado de exploración. Debido a que la IA implica datos no estructurados (datos robustos para capacitación), StarRocks tiene planes de centrarse en invertir y mejorar sus capacidades en esta área para el procesamiento de estos datos no estructurados.

En realidad, los datos estructurados y semiestructurados se utilizan ampliamente en la IA. Por ejemplo, StarRocks ha comenzado a explorar las capacidades de tipo de recuperación de vectores requeridas en la parte inferior de los grandes modelos de IA. Actualmente, la comunidad StarRocks coopera con Tencent en este sentido. Ahora que toda la combinación de IA y base de datos, siento que no hay escasez de tecnología, pero faltan escenarios de implementación, porque Tencent tiene un escenario claro, usan StarRocks a gran escala, los datos comerciales están aquí, cómo hacer El negocio basado en este conjunto de datos para volverse más inteligente, la idea actual es expandir la IA dentro de StarRocks. Por ejemplo, las capacidades de recuperación de vectores pueden servir a las empresas basándose en datos existentes, en lugar de crear un nuevo conjunto de empresas de soporte. Si todo va bien, es posible que podamos contribuir con esta capacidad a la comunidad de StarRocks el próximo año. Para entonces, StarRocks podrá proporcionar algunas capacidades básicas en todo el sistema de IA y modelos grandes, pero ciertamente no es una solución de IA completa. .

P4: Al construir un almacén de datos , es posible que deba compararlo más o menos con el Snowflake extranjero, pero porque Snowflake es inherentemente un almacén de datos en la nube basado en la nube. Por lo tanto, me gustaría preguntar cuál es el estado actual de la aplicación de los almacenes de datos en la nube nacionales y cuáles son las tendencias de uso futuras.

Zhang Youdong: Con respecto al "almacén de datos en la nube", algunas capacidades que actualmente brindan los proveedores nacionales de nube, como AnalyticDB de Alibaba, Holograss y TCF de Tencent, se utilizan ampliamente. Sin embargo, actualmente existen muchos escenarios en China en los que la construcción fuera del almacén no se puede trasladar a la nube y es necesario mantenerla en este entorno privatizado. Pero no creo que esto obstaculice el desarrollo de almacenes de datos en la nube.

Porque desde la perspectiva de la nube, todos todavía pueden sentir claramente que: ya sean aplicaciones, bases de datos o varios componentes, migrar a la nube ya es una tendencia. Creo que la migración de los almacenes de datos a la nube también es una tendencia, incluida la actual arquitectura de separación de almacenamiento de StarRocks. Por supuesto, puede usarlo en un entorno privado, crear este tipo de clúster HDS localmente y crear un sistema de separación de almacenamiento. Pero si desea maximizar su valor, debe implementarlo en la nube y utilizar sistemas nacionales como OSS y COS para maximizar su valor y lograr el menor costo y la mejor flexibilidad.

Desde la perspectiva del desarrollo tecnológico, las tendencias de desarrollo de la arquitectura, incluidas las tendencias comerciales, creo que la evolución hacia la nube definitivamente se mantendrá sin cambios. Además, creo que puede haber algunos cambios en las restricciones en determinadas industrias. Porque incluso dentro de las instituciones financieras, los datos son jerárquicos y tal vez la parte central deba estar enteramente en el dominio privado. Sin embargo, muchos datos relacionados con la empresa se pueden gestionar en forma de nube privada o nube de dominio privado.

P5: Desde la perspectiva del papel de un fabricante de almacén de datos , ¿cómo ve HTAP ? Debido a que es posible que las empresas de bases de datos lo hayan mencionado más en los últimos dos años, este año las empresas de almacenamiento de datos también se están inclinando hacia los puntos calientes de HTAP. Entonces, ¿cómo vemos los puntos técnicos críticos de HTAP?

Zhang Youdong: De hecho, la diferencia de carga entre TP y AP es demasiado grande. Desde un punto de vista técnico general, sistemas como el TiDB doméstico actualmente se centran en HTAP, que pueden lograr cierta simplificación arquitectónica en escenarios pequeños y medianos. Por ejemplo, mis datos son principalmente carga de trabajo TP, y hay algunas consultas y análisis de informes simples, que no son complicados y no ejercen mucha presión sobre todo el sistema. En este caso, creo que se puede probar HTAP, y debería serlo. capaz de hacer el trabajo.

Sin embargo, para escenarios de análisis más complejos, utilizar una base de datos HTAP basada en TP sigue siendo un gran desafío. En algunos escenarios reales, por ejemplo, cuando los usuarios comparan StarRocks con algunos sistemas HTAP, pueden sentir claramente la brecha de rendimiento entre los dos en escenarios de análisis tan complejos.

Creo que el punto central aquí es que los principios orientados a los negocios de TP y AP son diferentes. TP es para alta concurrencia y estabilidad, y AP es para velocidad. Uno es tratar de mantener esta estabilidad y los recursos no se pueden usar demasiado; el otro es la arquitectura MPP, que necesita usar recursos lo más rápido posible. Si se juntan dos cosas, es difícil conciliar requisitos un poco más complejos.

P6: Hoy también mencioné la "integración de lagos y almacenes", me gustaría preguntar, ¿qué opinas de la tendencia actual de Zero-ETL?

Zhang Youdong: Creo que esta tendencia es bastante obvia. Ya sea que se llame Zero-ETL o No ETL, en resumen, es para reducir ETL. Creemos que en toda la construcción del canal de datos, la parte más compleja puede ser ETL, que es más importante que la optimización del análisis de consultas internas.

Ahora toda la estructura de "lago y almacén integrados" de StarRocks en realidad está resolviendo este problema. El núcleo de la arquitectura integrada de lago y almacén es que sus datos se almacenan de manera unificada, pero el almacenamiento unificado no requiere necesariamente que los datos se importen a StarRocks para su almacenamiento a través de ETL. Si ya lo ha guardado, no necesita ETL. Simplemente puede colocarlo directamente en un sistema como Hive o Iceberg. Esto en realidad reduce el ETL.

Además, en la dimensión del procesamiento de datos o aceleración del posprocesamiento, utilizamos tecnología de vista materializada para que los usuarios sean menos conscientes del proceso ETL. El usuario aún realiza algunas consultas y crea una vista materializada, y luego StarRocks programa y actualiza las acciones para el usuario. En otras palabras, desde el enlace completo, estamos ayudando a los usuarios a simplificar el ETL Pipeline.

P7: ¿Existe alguna idea de combinarlo con la informática de privacidad? Hoy en día, la combinación de almacenes de datos extranjeros y computación privada es bastante popular. Porque debido a requisitos regulatorios, puede haber múltiples almacenes de datos en el extranjero y es inconveniente que los datos fluyan entre ellos. Sin embargo, esta forma de datos inmutables y modelo dinámico se puede lograr mediante la informática de privacidad.

¿Existe tal tendencia en China? A través del método de "informática de privacidad + integración de almacén en lago", ¿se pueden realizar análisis de datos o aplicaciones inteligentes? Esto puede resultar más atractivo para industrias como la financiera.

Zhang Youdong: Ésta es una buena pregunta. También hemos estado pensando en cómo resolver el problema posterior de intercambio de datos después de que StarRocks evolucione hacia un lago y un almacén integrados. A juzgar por los clientes con los que hemos contactado hasta ahora, todos prestarán atención a esta informática de privacidad, pero todavía hay relativamente pocas personas que realmente la exploran y la practican. Principalmente debido a la necesidad de utilizar informática privada para resolver problemas comerciales, la experiencia es muy pequeña. Pero este problema es realmente muy importante: al igual que Databricks, también es un Lakehouse, pero también utiliza este catálogo unificado para compartir datos, incluida cierta gestión de permisos, para compartir datos privados con otras empresas u organizaciones, y también con diferentes fortalezas de reglas que controlan el nivel intermedio. acceso.

En primer lugar, desde la perspectiva de las tendencias, creo que en realidad no se invierte mucho en esto en China. También es posible que las empresas que realmente están haciendo esta parte no hayan considerado StarRocks todavía, o simplemente no lo hayamos percibido.

En segundo lugar, desde una perspectiva técnica, la arquitectura Lakehouse actual de StarRocks en realidad puede satisfacer las necesidades de intercambio de datos entre organizaciones en el futuro y puede lograr un control de acceso a datos tan granular, lo que facilita que las organizaciones y los clústeres compartan bien los datos.

P8: Presente la próxima planificación técnica del producto, algunas tecnologías clave o temas importantes que se desarrollarán en el siguiente paso.

Zhang Youdong: Continuaremos mejorando StarRocks en el camino del "almacén de lago en tiempo real nativo de la nube".

La nube nativa es fácil de entender y hace que StarRocks sea más rentable y eficiente. Estas características de escalamiento elástico se reflejan mejor en StarRocks.

Además, nos comprometeremos a resolver el problema de la construcción de enlaces de análisis en tiempo real por parte de los usuarios. Por ejemplo, un conjunto de enlaces requiere un cálculo de Flink o una serie de tecnologías Spark Streaming para extraer datos y luego importarlos a StarRocks para su procesamiento y análisis. El enlace completo es extremadamente largo. Esperamos simplificarlo aún más y facilitar la creación de enlaces en tiempo real basados en StarRocks.

En tercer lugar, después de la unificación de Hucang, la mayoría de las funciones y acciones de gestión del usuario deben completarse dentro de StarRocks. Originalmente, estábamos haciendo análisis interactivos, principalmente informes, y es posible que más y más procesamiento de datos se realice en StarRocks más adelante. Por lo tanto, StarRocks se centrará en Lakehouse unificado para mejorar algunas capacidades que admiten la ejecución por lotes ETL, de modo que los requisitos de análisis se puedan completar completamente a través de un componente de StarRocks.

¿Construir un lago o construir un almacén? StarRocks: ahora el lago y el almacén se pueden integrar en uno

Supongo que te gusta