ApacheCon: práctica del proyecto Apache en big data nativo de la nube

La primera Cumbre fuera de línea de China de CommunityOverCode Asia (anteriormente ApacheCon Asia), la serie de conferencias globales oficiales de Apache Software Foundation, se llevará a cabo en Park Plaza Beijing del 18 al 20 de agosto de 2023. La conferencia incluirá 17 foros y cientos de cortes -problemas de borde.

El equipo de computación nativa en la nube de ByteDance participó profundamente en la cumbre CommunityOverCode Asia y pronunció discursos de apertura relacionados. Ocho estudiantes compartieron la experiencia práctica del proyecto de código abierto Apache en el negocio de ByteDance en torno a 6 temas en 4 temas. Además, Li Benchao, miembro de Apache Calcite PMC y Apache Flink Committer, participará en el discurso de apertura y compartirá su experiencia y ganancias al participar en contribuciones de código abierto.

 

Discurso de apertura

¿Es difícil contribuir al código abierto?

Tal vez muchos estudiantes hayan pensado en participar en algunas contribuciones de código abierto para mejorar sus capacidades técnicas e influencia. Sin embargo, suele haber una distancia entre el ideal y la realidad: porque estoy demasiado ocupado con el trabajo, no tengo tiempo para participar; el umbral de los proyectos de código abierto es demasiado alto y no sé cómo llegar comencé; probé algunas contribuciones, pero la respuesta de la comunidad no fue alta, así que no me apegué. En este discurso de apertura, Li Benchao combinará su propia experiencia para compartir algunas historias y pensamientos en el proceso de contribuir a la comunidad de código abierto, cómo superar estas dificultades y finalmente hacer un gran avance en la comunidad de código abierto y lograr un equilibrio entre trabajo y contribución de código abierto.

Li Benchao

Bytedance, líder técnico de Flink SQL

Apache Calcite PMC Member, Apache Flink Committer, se graduó de la Universidad de Pekín, actualmente trabaja en el equipo de computación de transmisión de ByteDance y es el líder técnico de Flink SQL.

Discurso de apertura

Tema especial: lagos de datos y almacenes de datos

Práctica de construcción de lago de datos en tiempo real basado en Flink

Wang Zheng Volcanic Engine Cloud Computación nativa Ingeniero de I+D

Min Zhongyuan Volcanic Engine Cloud Informática nativa Ingeniero de I+D

Discurso Introducción: El lago de datos en tiempo real es un componente central de la arquitectura de datos moderna, que permite a las empresas analizar y consultar grandes cantidades de datos en tiempo real. En este intercambio, primero presentaremos los puntos débiles actuales de los lagos de datos en tiempo real, como la alta puntualidad, diversidad, consistencia y precisión de los datos. Luego, presente cómo construimos un lago de datos en tiempo real basado en Flink e Iceberg, principalmente a través de las siguientes dos partes: cómo importar datos al lago en tiempo real y cómo usar Flink para consultas temporales OLAP. Finalmente, me gustaría presentar algunos beneficios prácticos de Bytedance en lagos de datos en tiempo real.

Perfil del disertante: Wang Zheng, quien se unió a ByteDance en 2021, trabaja en el equipo de plataforma abierta de infraestructura y es el principal responsable de la investigación y el desarrollo de Serverless Flink y otras direcciones;

Min Zhongyuan se unió a ByteDance en 2021 y trabajó en el equipo de plataforma abierta de infraestructura. Es el principal responsable de la investigación y el desarrollo de Serverless Flink y Flink OLAP.

Temas especiales: inteligencia artificial/aprendizaje automático

Práctica de capacitación integrada de flujo por lotes de aprendizaje profundo de Bytedance

Mao Hongyue ByteDance Ingeniero de Infraestructura

Introducción del discurso: con el desarrollo del negocio de la empresa, la complejidad del algoritmo continúa aumentando, y cada vez más modelos de algoritmos exploran el entrenamiento en tiempo real sobre la base de actualizaciones fuera de línea para mejorar el efecto del modelo. Con el fin de realizar la disposición flexible y el cambio libre de la formación compleja fuera de línea y en tiempo real, y para programar los recursos informáticos fuera de línea en un rango más amplio, la formación del modelo de aprendizaje automático tiende gradualmente a integrarse por lotes y secuencias. programación de entrenamiento de aprendizaje automático, incluido ByteDance La evolución de la arquitectura del marco, la práctica de integración de flujo por lotes y entrenamiento elástico heterogéneo. También se centra en la experiencia práctica de la disposición híbrida de múltiples fuentes de datos en varias etapas, la reproducción aleatoria global de muestras de transmisión, el enlace completo nativo y la información de datos de capacitación en el escenario MFTC (entrenamiento colaborativo integrado de transmisión por lotes).

Perfil del profesor: se unió a ByteDance en 2022, se dedicó a la investigación y el desarrollo de capacitación en aprendizaje automático, principalmente responsable del motor de capacitación de modelo de IA integrado de flujo por lotes nativo en la nube a gran escala, compatible con la recomendación de video de Douyin, la recomendación de titulares, la publicidad de pangolín, la publicidad gráfica de Qianchuan Esperando para negocios

Bytedance Spark admite la práctica de razonamiento del modelo Wanka

Liu Chang ByteDance Ingeniero de Infraestructura

Zhang Yongqiang ByteDance Ingeniero de sistemas de aprendizaje automático

Discurso de introducción: Con el desarrollo de la nube nativa, debido a su fuerte influencia y capacidades de construcción ecológica, más y más tipos de aplicaciones de carga, incluidos big data e IA, comenzaron a migrar a Kubernetes. Byte exploró internamente Spark de Hadoop Migrar a Kubernetes a hacer que los trabajos se ejecuten de forma nativa en la nube. Al mismo tiempo, buscamos tareas de procesamiento por lotes sin conexión con una gran cantidad de GPU con gran demanda. Con el aumento de las tareas de marea, encontramos una serie de problemas: la fuente de alimentación informática de la GPU (horas de la tarjeta) todavía tiene una gran brecha, y el tamaño del grupo de recursos de una sola sala de computadoras no puede coincidir con el negocio. El aumento en la cantidad de cálculo por unidad de tarea, el desperdicio de poder de cómputo en el grupo de recursos en línea y la falta de una entrada de plataforma unificada. Spark y AML (aprendizaje automático aplicado) cooperan para respaldar el cálculo fuera de línea de 10,000 tarjetas de inferencia de modelo de GPU mixta a través de la tecnología de uso compartido de GPU, la programación de GPU mixta, la mejora del motor Spark, la plataforma y la mejora ecológica circundante, y admiten más de 8 mil millones de trabajos Los datos de entrenamiento dinámico utiliza la tarjeta mixta GPU 7k durante 7,5 h para completar la limpieza de datos de puntuación del modelo, y la eficiencia y la estabilidad del uso de recursos se han mejorado significativamente.

Perfil del disertante: Liu Chang, quien se unió a ByteDance en 2020, trabaja en el equipo de computación por lotes de infraestructura y es el principal responsable del trabajo nativo de la nube de Spark, Spark On Kubernetes y otras direcciones de investigación y desarrollo;

Zhang Yongqiang, quien se unió a ByteDance en 2022, trabajó en el equipo del sistema de aprendizaje automático AML y participó en la construcción de una plataforma de aprendizaje automático a gran escala.

Tema especial: almacenamiento de datos y computación

Bytedance MapReduce -> Práctica de migración suave de Spark

Wei Zhongjia ByteDance Ingeniero de infraestructura

Discurso de introducción: Con el desarrollo del negocio, ByteDance ejecuta alrededor de 1,2 millones de trabajos de Spark en línea todos los días. En contraste, todavía hay alrededor de 20,000 a 30,000 trabajos de MapReduce en línea todos los días. Como un marco de procesamiento por lotes con una larga historia, desde la perspectiva de la investigación y el desarrollo de big data, la operación y el mantenimiento del motor MapReduce enfrenta una serie de problemas. Por ejemplo, el ROI de la iteración de actualización del marco es bajo, la adaptabilidad al nuevo marco de programación informática es deficiente, etc. Desde el punto de vista del usuario, también existen una serie de problemas en el uso del motor MapReduce. Por ejemplo, el rendimiento informático es deficiente y se necesitan herramientas Pipeline adicionales para administrar los trabajos que se ejecutan en serie. Quiero migrar Spark, pero hay una gran cantidad de trabajos existentes y una gran cantidad de trabajos usan varios scripts que Spark no utiliza. apoyo. En este contexto, el equipo de ByteDance Batch diseñó e implementó un plan para la migración sin problemas de las tareas de MapReduce a Spark, que permite a los usuarios completar la migración sin problemas de MapReduce a Spark solo agregando una pequeña cantidad de parámetros o variables de entorno a los trabajos existentes, en gran medida reducir los costos de migración y lograr buenos beneficios de costos.

Perfil del profesor: se unió a ByteDance en 2018 y actualmente es ingeniero de desarrollo de big data de la infraestructura de ByteDance. Se enfoca en el campo de la computación distribuida de big data y es el principal responsable del desarrollo de Spark kernel y Shuffle Service desarrollado por ByteDance.

ByteDance 100 mil millones de archivos HDFS Cluster Practice

Xiongmu Volcanic Engine Big Data Storage Ingeniero de I+D

Discurso de introducción: Con el desarrollo profundo de la tecnología de big data, la escala de datos y la complejidad de uso son cada vez mayores, y Apache HDFS enfrenta nuevos desafíos. En ByteDance, HDFS no solo es el almacenamiento del negocio tradicional de almacenamiento de datos de Hadoop, sino también la base del motor informático de la arquitectura de separación de almacenamiento e informática, y la base de almacenamiento del entrenamiento del modelo de aprendizaje automático. En ByteDance, HDFS no solo crea una capacidad de programación de almacenamiento que sirve para la programación de recursos informáticos a gran escala en varias regiones para mejorar la estabilidad de las tareas informáticas; también proporciona caché del lado del usuario integrado, tres copias convencionales, identificación de datos de almacenamiento en frío y Capacidad de programación de frío y calor. Este intercambio presenta cómo ByteDance comprende los nuevos requisitos de los escenarios emergentes para el almacenamiento tradicional de big data y respalda la estabilidad del sistema en diferentes escenarios a través de la evolución tecnológica y la construcción del sistema de operación y mantenimiento.

Perfil del disertante: Principal responsable de la evolución de los servicios de metadatos HDFS de almacenamiento de big data y soporte ecológico de computación de nivel superior.

Tema: Nativo de la nube

Práctica nativa de YARN en la nube de Bytedance

Shao Kaiyang Volcanic Engine Informática nativa en la nube Ingeniero de I+D

Discurso Introducción: El negocio fuera de línea interno de ByteDance tiene una escala enorme. Hay cientos de miles de nodos y millones de tareas que se ejecutan en línea todos los días, y la cantidad de recursos utilizados todos los días es del orden de decenas de millones. Internamente, la programación fuera de línea El sistema y el sistema de programación en línea son respectivamente responsables de la programación y gestión de negocios fuera de línea y negocios en línea. Sin embargo, con el desarrollo de la escala comercial, este conjunto de sistemas ha expuesto algunas deficiencias: pertenece a dos conjuntos de sistemas fuera de línea, y algunos escenarios de eventos importantes requieren la conversión de recursos fuera de línea a través de la operación y el mantenimiento, que tiene una gran carga de operación y mantenimiento y un ciclo de conversión largo; la inconsistencia del grupo de recursos hace que la tasa general de utilización de recursos sea baja, y el control de cuotas, la operación y el mantenimiento de la máquina, etc. no se pueden reutilizar; las operaciones de big data no pueden disfrutar de varios beneficios de la nube nativa, tales como: capacidades de aislamiento confiables y estables , convenientes capacidades de operación y mantenimiento, etc. El sistema fuera de línea necesita ser unificado con urgencia, y el motor de big data tradicional no está diseñado para ser nativo de la nube, por lo que es difícil implementarlo directamente en la nube. el HILO original, y el costo de transformación es enorme. Sobre la base de estos antecedentes, ByteDance propone una solución YARN basada en la nube nativa: YARN sin servidor, que es 100 % compatible con el protocolo Hadoop YARN. Los trabajos de big data en el ecosistema de Hadoop se pueden migrar de forma transparente al sistema nativo de la nube sin modificaciones. Los recursos en línea y fuera de línea se pueden convertir de manera eficiente y flexible y multiplexar por división de tiempo, y la utilización general de recursos del clúster se ha mejorado significativamente.

Perfil del disertante: Responsable del trabajo relacionado con la programación fuera de línea en la infraestructura de ByteDance, con muchos años de experiencia en arquitectura de ingeniería.

 

Supongo que te gusta

Origin blog.csdn.net/weixin_46399686/article/details/132227993
Recomendado
Clasificación