Plataforma de Big Data de código abierto E-MapReduce Serverless StarRocks Introducción del producto

Resumen: Este artículo compartirá la práctica de productos nativos de la nube del almacén Speed ​​Lake de StarRocks en la nube, construido conjuntamente por Alibaba Cloud y la comunidad de StarRocks. Incluye principalmente cuatro partes: la primera parte presenta el formulario totalmente administrado de StarRocks y los productos en la nube OLAP que están libres de servicios de operación y mantenimiento, la segunda parte presenta la administración de instancias, el análisis de diagnóstico, la administración de metadatos, el centro de seguridad y otras funciones de StarRocks Manager; la tercera parte presenta casos de uso en redes sociales, educación en línea, comercio electrónico y otros escenarios, finalmente, la planificación a corto y largo plazo para el producto: 1. Introducción del producto
StarRocks
2. Introducción de la función StarRocks
3. Caso de escenario StarRocks
4 Planificación futura de StarRocks

1. Introducción del producto StarRocks

Alibaba Cloud y la comunidad de StarRocks cooperarán de forma semi-hospedada a partir de principios de 2022. Unos 200 clientes ya están utilizando productos StarRocks semialojados. Este año, comenzamos a crear un formulario de producto completamente administrado, con la esperanza de ayudarlo a reducir aún más el umbral de administración y uso, y cooperar con la comunidad para promocionar el producto entre más usuarios de OLAP.

EMR Serverless StarRocks es un servicio totalmente administrado de StarRocks en Alibaba Cloud. Combinando las características extremadamente rápidas y unificadas de StarRocks, se enfoca en los dos objetivos de reducir el umbral y reducir la complejidad de la operación y el mantenimiento, y brinda a los clientes más capacidades.

En términos de facilidad de uso, en la forma de Serverless, proporciona servicios completamente administrados y libres de operación y mantenimiento, por lo que no tiene que preocuparse por la estabilidad del clúster de StarRocks, como el tiempo de inactividad en el uso diario. En cuanto a la gestión de datos, proporciona un análisis de SQL lento fácil de usar y un diagnóstico del estado del clúster, una cómoda gestión de tareas de importación y una gestión de metadatos visuales.

En combinación con algunos productos en Alibaba Cloud, las capacidades nativas de la nube están integradas. El primero es integrar los recursos subyacentes, combinados con K8S, para lograr un uso listo para usar, y solo toma de tres a cuatro minutos completar la creación rápida de un clúster. Además, brinda la capacidad de expandir y reducir la capacidad de manera eficiente y actualizar y actualizar las configuraciones en el futuro, y realiza la entrega rápida de recursos. Además, la integración profunda con DLF ha realizado la conexión de todo el sistema de lago de datos en la nube. Profundamente integrado con Flink VVP para reducir aún más los costos de desarrollo.

La figura anterior muestra el sistema de productos EMR. Esta introducción se centra en la parte OLAP. StarRocks es el primer formulario completamente administrado lanzado por EMR, y habrá más formularios completamente administrados, como Serverless Doris y Presto, para ayudar a los usuarios a usar la pila de tecnología de big data con un umbral bajo.

Con StarRocks, podemos construir una nueva generación de arquitectura de datos unificada y extremadamente rápida. En la capa de análisis, podemos usar StarRocks para unificar el motor OLAP y cubrir todos los escenarios OLAP. De esta manera, la pila de tecnología se puede unificar y una tecnología y la operación y el mantenimiento se pueden aplicar a varios escenarios de análisis OLAP.

La arquitectura del sistema StarRocks se muestra en la figura anterior, y el núcleo de todo el sistema es FE (Frontend) y BE (Backend).

El alojamiento completo de EMR gira principalmente en torno a la forma de implementación de K8S, y el alojamiento parcial gira principalmente en torno a la forma de implementación de ECS. La semigestión proporciona principalmente capacidades de implementación rápida, incluidas capacidades básicas de gestión de clústeres, como supervisión y alarmas. El alojamiento completo es un nivel superior, y también se gestiona la gestión de servicios de FE y BE, por lo que los usuarios no necesitan preocuparse por la operación, el mantenimiento y la gestión de los recursos informáticos. Además, se espera que las capacidades de operación y mantenimiento de la plataforma, incluida la expansión y contracción, el monitoreo y las alarmas del clúster, etc., se gestionen por completo, para ayudar a los usuarios a ahorrar más costos de operación y mantenimiento. Las capacidades proporcionadas por el alojamiento completo son, por un lado, una gama completa de servicios sin operación y mantenimiento, y por otro lado, la capacidad de actualizarse automáticamente. También hay algunas capacidades de administrador para administrar mejor los datos, incluidas las tareas de importación, metadatos, permisos, etc.

2. Introducción a la función StarRocks

gestión de instancias

La administración de instancias es principalmente para resolver rápidamente las capacidades de implementación y monitoreo del clúster en una forma totalmente administrada, que es la capacidad más básica. Y puede realizar mejor la actualización automática. Además, brinda la capacidad de visualizar la configuración, así como plantillas para algunas reglas de monitoreo y alarma.

Diagnóstico y Análisis

En el proceso de consulta diaria de datos o aplicación de datos, a menudo se encuentra el problema de SQL lento.Es necesario analizar la causa y encontrar una solución correspondiente. EMR StarRocks Manager proporciona capacidades de análisis y diagnóstico visual de SQL, que pueden ayudar a los usuarios a encontrar rápidamente la causa raíz.

gestión de metadatos

En la actualidad, la gestión de metadatos solo proporciona una capacidad relativamente básica, que es mostrar el contenido de las tablas. En el futuro se implementarán más funciones y más detalladas, como tareas de importación, vistas materializadas, capacidades de gestión de apariencia, etc.

Centro de Seguridad

Actualmente, la versión Serverless proporciona una gestión básica de usuarios y un control de permisos a nivel de biblioteca. Debido a que 3.0 va a reestructurar los permisos de una comunidad, se planea realizar un control de permisos más detallado después del lanzamiento de 3.0.

Versión función descripción

La siguiente tabla enumera las diferencias funcionales de las diferentes versiones de EMR StarRocks.

El nivel central es básicamente consistente. Para funciones individuales, como algunos escenarios de consulta de lago de datos, en términos de ritmo de iteración, debido a que será más rápido adaptarse a los productos internos de Alibaba Cloud, la versión de Alibaba Cloud se lanzará más rápido, pero eventualmente se contribuirá a la comunidad. En el escenario de Flink VVP CTAS, debido a que es una versión personalizada especial con Flink, no se puede aportar a la comunidad.

En términos de gestión de operaciones y mantenimiento de instancias, la versión completamente administrada proporciona una gama más amplia de visualización y capacidades libres de operaciones y mantenimiento. Algunas de las capacidades del administrador presentadas anteriormente, como la administración visual de bases de datos/tablas, el análisis lento de SQL, etc., actualmente solo están disponibles en la versión sin servidor.

3. Caso del escenario StarRocks

4. Planificación futura de StarRocks

La versión EMR Serverless ha sido invitada a probarse desde enero de este año y solo tenía algunas capacidades básicas en ese momento. Después de que comenzara la versión beta pública el 10 de abril, se lanzaron más habilidades.

El plan para el segundo trimestre, uno es el lanzamiento comercial y el otro es realizar más mejoras en la escena del análisis DLF Hucang, porque los requisitos para los recursos informáticos en el análisis Hucang son más flexibles, por lo que se paga sobre la marcha y cierta flexibilidad. son habilidades requeridas. Además, proporcionaremos comprobaciones del estado de las instancias para ayudarle a localizar rápidamente los problemas del clúster. Alrededor de Manager, se realiza la capacidad de gestión de las vistas materializadas. Aunque las vistas materializadas no se usan mucho en la actualidad, con el lanzamiento de 3.0 y el lanzamiento de la arquitectura de separación de almacenamiento e informática, las vistas materializadas se usarán cada vez más. También hay gestión de importación de datos y editor SQL, etc.

Q3, después del lanzamiento de la separación de cálculo y almacenamiento 3.0, se espera que toda la escena de big data se pueda aplicar directamente en formatos de lago como Iceberg y Hudi, y algunas capacidades de vistas materializadas y formatos de lago se pueden usar para realizar rápidamente LakeHouse escenarios. Además, existen modelos de permisos de refactorización, integración con MaxCompute, etc.

En el cuarto trimestre, mejoraremos la facilidad de uso y la producción en términos de copia de seguridad y recuperación de instancias y migración de instancias. Y continúe haciendo una optimización e iteración más profundas en las funciones existentes.

Lo anterior es un plan general para este año y, por supuesto, se realizarán ajustes en función de las necesidades de los clientes en escenarios específicos.

Enlace original

Este artículo es el contenido original de Alibaba Cloud y no se puede reproducir sin permiso.

Supongo que te gusta

Origin blog.csdn.net/yunqiinsight/article/details/131050117
Recomendado
Clasificación