Reduzca el costo de cálculo de Spark en un 50,18 %, use el motor de almacén del lago Kyligence para crear una base de datos grande nativa en la nube y acelere el cálculo en 2 veces

La Cumbre de Desarrollo Futuro de Código Abierto de China 2023 se llevó a cabo con éxito el 13 de mayo. En el subforo de negocios nativos de código abierto de la conferencia, Zhang Xiaolong, director sénior de Arquitectura de soluciones de Kyligence, pronunció un discurso de apertura sobre "La evolución de la base de datos nativa en la nube", y presentó sus puntos de vista sobre el desarrollo de código abierto para los invitados. Las tendencias y el motor del almacén del lago Kyligence pueden desempeñar un papel importante en la construcción de la próxima generación de bases de datos nativas de la nube. Al mejorar el rendimiento informático, los costos informáticos se pueden reducir considerablemente. El siguiente es el contenido del discurso:

Hola a todos, este discurso consta de tres partes:

El contenido de la primera parte se basa en mi experiencia personal, así como en el pensamiento generado por lo que he visto y oído, para hablar de algunas de mis opiniones sobre el desarrollo del código abierto.

La segunda parte es hablar sobre por qué creo que las tecnologías básicas clave obtendrán nuevas oportunidades de desarrollo.

La última parte es presentar la tendencia de evolución de la base de datos en la industria y algunas prácticas de nuestra empresa en torno a nuevas oportunidades de desarrollo.

En la primera parte, mi opinión sobre el código abierto, uso la experiencia pasada de Kyligence como argumento y luego presento tres puntos de vista:

El primer punto de vista es: la tecnología de software de código abierto y su comercialización son fuerzas importantes que impulsan la transformación digital en varios campos.

Primero presente Apache Kylin y Kyligence.

Apache Kylin™ es un almacén de datos analíticos distribuidos de código abierto.

Fundada en 2016 por el equipo fundador de Apache Kylin, Kyligence es un proveedor líder de análisis de big data y plataformas de indicadores.

Ha visto muchos logotipos corporativos. En la actualidad, más de 1500 empresas en todo el mundo utilizan los productos comerciales Apache Kylin y Kyligence para resolver puntos débiles en las operaciones digitales y el análisis y la toma de decisiones. Las ricas prácticas de las empresas impulsan constantemente el desarrollo del código abierto y la comercialización y, al mismo tiempo, el código abierto y la comercialización también impulsan la transformación digital en más campos.

El desarrollo de Apache Kylin y Kyligence es relativamente maduro, pero esta es solo una de las innumerables fuerzas de comercialización de código abierto y código abierto. El código abierto y la comercialización detrás de él son fuerzas importantes que impulsan la transformación digital en varios campos. Es de gran importancia y importancia de desarrollar vigorosamente estas fuerzas valor.

El segundo punto de vista es: la prosperidad ecológica del software de código abierto se basa en los efectos indirectos provocados por el vigoroso desarrollo de la economía digital.

Porque la economía digital incluye dos partes: la industrialización digital y la digitalización industrial.

En primer lugar, a través de la industrialización digital para reservar tecnología de alto nivel y una gran cantidad de talentos, el desarrollo de la industria pasará de un juego de suma cero a un desarrollo coordinado. Esta es la condición básica para el desarrollo de código abierto.

Además, las tecnologías y los talentos producidos por la industrialización digital jugarán un papel muy importante en el proceso de digitalización industrial. La transformación digital de las industrias tradicionales puede acelerar el ritmo de la transformación mediante el uso de proyectos de código abierto y el apoyo a la comercialización, al tiempo que inyecta un impulso de desarrollo sostenible en el código abierto.

Al observar el proceso de desarrollo de Apache Kylin y Kyligence desde esta línea de tiempo, creo que este punto puede ser bien probado. Antes de 2015, el proyecto Kylin se desarrolló en eBay y luego contribuyó a la Fundación Apache. Este es el proceso de industrialización digital, y luego solo Con el rápido avance de la digitalización industrial, la transformación digital de las industrias tradicionales ha respaldado el desarrollo comercial de Kyligence y le ha inyectado poder y vitalidad, lo que le permite contribuir aún más a la digitalización industrial.Desde 2016, Kyligence se ha convertido en una fuerza importante para promover la evolución de Kylin de código abierto, y luego contribuyó con dos proyectos de código abierto, Byzer y Gluten. En mi opinión, el factor fundamental que afecta la prosperidad del ecosistema de código abierto es el nivel de desarrollo de la economía digital y el entorno empresarial. Necesitamos adherirnos al largo plazo, la cooperación y ganar-ganar.

El tercer punto de vista es: la creación de valor social por parte del ecosistema de software de código abierto requiere especialmente una inversión planificada y organizada a largo plazo .

Github realiza encuestas y análisis basados ​​en proyectos de código abierto alojados todos los años, y vale la pena prestar atención a las últimas conclusiones. El informe mencionó que casi todos los proyectos de código abierto a gran escala son liderados y mantenidos por empresas de tecnología, y la mayoría de ellos son tecnologías básicas clave, como marcos, compiladores y lenguajes de programación. Casi todos los proyectos de código abierto con el mayor número de contribuyentes tienen soporte comercial detrás de ellos.

Aún tomando Kyligence como ejemplo, los dos proyectos distintos de Apache Kylin actualmente liderados por Kyligence también han logrado buenos resultados.

Byzer es una plataforma de desarrollo de código bajo para datos e inteligencia artificial. Debido a que brinda soporte comercial, los contribuyentes de código abierto en la industria financiera también están profundamente involucrados. El proyecto se aplica actualmente en el negocio de producción de la industria financiera y otras industrias.

Gluten es un motor informático vectorizado y su objetivo es esforzarse por mejorar su rendimiento informático varias veces en comparación con Spark nativo. Debido a que Apache Spark es uno de los motores informáticos distribuidos de código abierto más utilizados en el campo de los grandes datos, Gluten se compromete a mejorar el retorno de la inversión de la potencia informática de TI para los usuarios existentes de Spark a través de la mejora del rendimiento y la flexibilidad de la informática en la nube, ahorrando costo de los usuarios.

En la segunda parte, el país ha propuesto una gran estrategia para construir una China digital. En este contexto, presto especial atención a las nuevas oportunidades de desarrollo que obtendrá la tecnología de datos, y lo discutiré con ustedes en esta parte.

El plan de construcción de China digital es ambicioso, sistemático e integral. Creo que el aspecto más importante de promover el desarrollo de tecnologías clave básicas proviene de uno de los "dos cimientos" en el marco "2522", y la importante estrategia de consolidación digital infraestructura. Tomemos como ejemplo el proyecto "Digital from the East and Computation from the West", que se ha desarrollado vigorosamente en los últimos años y ha establecido una gran cantidad de centros de datos generales, centros de supercomputación, centros de cómputo inteligente y datos de borde. centros, y propuso "fusión de potencia informática heterogénea, integración de red en la nube, programación de múltiples nubes, colaboración este-oeste, circulación de seguridad de datos ..." y una serie de requisitos de desarrollo, que obviamente promoverán la innovación de tecnologías básicas como artificial inteligencia, big data y computación en la nube, y su integración y aplicación colaborativa serán la futura dirección importante del desarrollo.

En el proyecto "Digital from East to Computation from West", hay 8 nodos centrales de potencia informática nacional en el país, incluidos 10 clústeres de centros de datos nacionales. El clúster de Chongqing y el centro de Chengdu-Chongqing son una potencia informática importante, y las industrias relacionadas en Chongqing tendrán muy buenas oportunidades de desarrollo.

A partir de las políticas y medidas publicadas recientemente para el desarrollo de la industria de la potencia informática en algunos lugares, se puede ver que el desarrollo de computación en la nube localizada y plataformas de big data basadas en software y hardware básicos como servidores, computación y almacenamiento, plataformas en la nube , y la circulación de datos entrará en la vía rápida. Esto promoverá aún más la innovación y el desarrollo de tecnologías básicas como la inteligencia artificial, los grandes datos y la computación en la nube, que es una oportunidad de desarrollo muy rara.

Ante las oportunidades anteriores, creemos que la combinación de big data, inteligencia artificial y tecnología nativa de la nube es un buen punto de partida para aprovechar las oportunidades anteriores. La tercera parte compartirá con usted nuestra experiencia práctica relevante.

Hemos visto que empresas líderes en el país y en el extranjero, como Alibaba Cloud y Databricks, están promoviendo el desarrollo integrado de lagos de datos y almacenes de lagos de arquitectura nativa de la nube. Combinado con la experiencia práctica de Kyligence, creemos que después de Hadoop, Kubernetes nativo de la nube Técnicamente, formará una nueva generación de grandes bases de datos, con Spark, Flink y otras tecnologías informáticas de streaming y por lotes como motor informático unificado, y Hucang como núcleo de almacenamiento unificado, lo que simplifica en gran medida la complejidad de la pila de datos y construye código bajo y umbral bajo en él La aplicación de datos es la tendencia general del futuro.

Para cumplir con esta tendencia, Kyligence lanzó el motor Hucang, que utiliza tecnología de computación vectorizada y es compatible con las aplicaciones ecológicas Spark, convirtiéndose en un motor de alto rendimiento, ágil, flexible y abierto que soporta la operación de la plataforma Hucang .

Actualmente, los usuarios pueden implementar y probar esta tecnología en la nube de contenedores de Kubernetes. Pueden experimentar que el rendimiento informático de Spark vectorizado se duplica en comparación con el de Spark nativo, y el costo informático se reduce en un 50 %.

Esta tecnología se encuentra en la etapa de experiencia de prueba abierta. Ya hemos tenido algunos usuarios empresariales que intentaron usarla para reducir el costo de la informática fuera de línea en la nube pública, o para mejorar el rendimiento informático de los clústeres de Hadoop, y hemos logrado buenos resultados en algunos escenarios.

A continuación, reproduciré un video de demostración de 5 minutos para mostrarle: 1. Cómo implementar el motor Hucang, 2. Cómo comparar el rendimiento con Spark nativo, 3. Cómo los usuarios pueden usar el nuevo motor para ejecutar SQL personalizado, consultas o proceso de datos definidos, 4. ¿Cómo pueden los usuarios agregar rápidamente una versión personalizada del motor de cálculo y comparar el costo con el motor Hucang.

En el futuro, planeamos mejorar aún más el rendimiento y la compatibilidad del motor Spark vectorizado y fortalecer la conexión y colaboración con varias aplicaciones Spark. Completamente integrado con la tecnología nativa de la nube, se mejoran la elasticidad, la agilidad y el rendimiento del motor, se mejora considerablemente la eficiencia energética informática y se reducen considerablemente los costes informáticos; y, a través de estrategias abiertas, proporciona a los usuarios un soporte fiable y sostenible.

  • En términos de elasticidad, se accederá a los recursos bajo demanda, las cargas se pueden escalar extremadamente rápido y los recursos están muy aislados;
  • En términos de alto rendimiento, los operadores de computación vectorizada se mejorarán aún más, serán compatibles con las plataformas informáticas generales y admitirán el uso de chips con múltiples arquitecturas para la aceleración informática;
  • En términos de agilidad, admitirá plataformas informáticas heterogéneas que se ejecutan en diferentes lugares y admitirá múltiples nubes y entre nubes;
  • En términos de apertura, siempre abriremos los estándares de interfaz y siempre seremos compatibles con las interfaces estándar de Spark, nos integraremos con otras tecnologías en el ecosistema de Spark, cumpliremos con los requisitos de localización y creación de letras, y abriremos los códigos fuente mientras cooperamos con empresas y negocios, soporte empresas para lograr un control independiente de las tecnologías básicas básicas, y garantizar la fiabilidad y credibilidad de la cadena de suministro de software.

A continuación, compartiré el informe de prueba del motor Kyligence Hucang y Apache Spark en el escenario TPC-H. Se puede ver que el rendimiento del motor Spark vectorizado se ha mejorado, ahorrando la mitad de los recursos informáticos y reduciendo el costo de uso. para los usuarios en un 50%. Desde que decidió apoyar su comercialización, Kyligence está duplicando los recursos para hacer avanzar la tecnología a un ritmo aún más rápido. Esperamos que más usuarios que originalmente usaban Spark como motor de cómputo puedan intentar usar el motor Kyligence Hucang para obtener menores costos de uso y una mejor experiencia de usuario Invitamos a todos a trabajar juntos para promover el progreso de esta nueva tecnología y generar valor.

Puede escanear el código QR en la pantalla, seguir a Kyligence, unirse al grupo de comunicación de prueba del motor Hucang o agregar mi WeChat personal para más comunicación. Este es el final de mi intercambio de hoy, ¡gracias a todos!

Gracias nuevamente por la invitación de los organizadores de la conferencia, estamos dispuestos a trabajar con ustedes para contribuir al desarrollo sostenible de la industria de código abierto de China y la construcción de una China digital.

Los oyentes que estén interesados ​​en probar el motor Kyligence Hucang de forma gratuita, escaneen el código QR o hagan clic en el enlace para completar la información relevante. Después de enviar, le enviaremos un enlace de prueba gratuito de Kyligence Hucang Engine a su correo electrónico.

                                                                        

{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/cicixing/blog/8805223
Recomendado
Clasificación