[VLDB 2023] MagicScaler, un marco de escalamiento elástico de recursos en la nube basado en predicción, logra una doble cosecha de "alta QoS y bajo costo"

Comienzo

Recientemente, liderado por el equipo de tecnología de ingeniería básica de Big Data de la plataforma de computación en la nube de Alibaba, en colaboración con el equipo de la plataforma informática MaxCompute, la Escuela de Ciencia e Ingeniería de Datos de la Universidad Normal del Este de China y la Academia DAMO, se publicó el artículo "MagicScaler: Uncertainty". Basado en el marco de escalamiento elástico de recursos basado en predicciones de la plataforma de computación en la nube, Predictive Autoscaling》 fue aceptado por VLDB 2023, la conferencia más importante en el campo de las bases de datos.

El artículo de MagicScaler propone un innovador marco de escalamiento elástico activo basado en predicción para recursos en la nube llamado MagicScaler, que incluye principalmente un modelo de predicción basado en procesos gaussianos de atención multiescala y un tomador de decisiones de optimización de escala elástica que considera la incertidumbre de la demanda. El documento realizó experimentos en conjuntos de datos reales de tres grupos del servicio de computación de big data nativo de Alibaba Cloud, MaxCompute. En términos de costo integral y QoS, MagicScaler es significativamente mejor que otros algoritmos de escalado elástico clásicos, logrando una "alta QoS (calidad)". Servicio), “low cost” doble cosecha.

fondo

Con la creciente demanda de computación en la nube, la asignación razonable de recursos en la nube en función de las necesidades de los usuarios es un factor importante para garantizar la estabilidad y controlar los costos. La Figura 1 muestra tres estrategias de expansión y contracción fáciles de entender. La estrategia Conservadora proporcionará un suministro de ECS "conservador, falsamente alto", pero causará un gran desperdicio de recursos; la estrategia Pasiva es la elección del usuario. Ejecutar expansión y contracción tomar decisiones solo después de que se haya alcanzado la demanda conducirá al riesgo de violación de QoS debido a problemas de "arranque en frío" de recursos; para integrar las ventajas de estas dos estrategias, la estrategia de Autoescalamiento Predictivo puede entenderse como "saber de antemano Ejecutar expansión y decisiones de contracción basadas en las necesidades del usuario" será muy probablemente la forma de lograr la situación ideal en la Figura 1.

1.png

Figura 1: Tres estrategias de AutoScaling fáciles de entender: a) Estrategia conservadora: alto costo, bajo riesgo de QoS; b) Estrategia pasiva: bajo costo, alto riesgo de QoS; c) Estrategia ideal: bajo costo, bajo riesgo de QoS.

Los marcos de escalamiento automático existentes se basan principalmente en la teoría del control, el aprendizaje por refuerzo, la teoría de colas o la generación basada en reglas de decisiones de expansión de capacidad. Estos métodos utilizan únicamente algoritmos de predicción relativamente simples, como la demanda promedio durante un período histórico, sin considerar la demanda. La posible periodicidad y la incertidumbre en la demanda hacen que la precisión del pronóstico sea baja y difícil de hacer frente a la variabilidad de la demanda. Algunas investigaciones existentes solo utilizan métodos heurísticos para abordar la incertidumbre de la demanda, y es difícil obtener decisiones sólidas de expansión y contracción. Un marco de escalamiento ideal debe considerar plenamente la incertidumbre de la demanda tanto en la etapa de pronóstico como en la de toma de decisiones de escalamiento. Además, el marco de expansión y contracción automática existente no considera algunos atributos comerciales y restricciones reales en escenarios de escalamiento elástico de recursos en la nube, como los costos de inicio y retorno en frío que experimentarán los recursos elásticos durante la fase de expansión y contracción, QoS y QoS en la nube. escenarios de plataforma Debido a las limitaciones de compensación entre costos, etc., es difícil que estos marcos de escalado automático existentes se apliquen directamente al escenario de escalamiento elástico de la plataforma de computación en la nube de Alibaba.

desafío

Con la creciente demanda de computación en la nube, la asignación razonable de recursos en la nube en función de las necesidades de los usuarios es un factor importante para garantizar la estabilidad y controlar los costos. La Figura 2 muestra las solicitudes de recursos de un grupo del servicio de computación de big data nativo de Alibaba Cloud bajo diferentes granularidades de datos (los datos han sido insensibilizados). Se puede ver que las demandas de los usuarios en la nube son a menudo muy complejas, inciertas y granulares. La dependencia hace que sea difícil predecir con precisión la demanda futura y hace que el escalamiento elástico activo sea más desafiante. Una buena estrategia activa de escalamiento elástico debe mantener un equilibrio razonable entre bajos costos operativos y una alta calidad de servicio de la plataforma en la nube, teniendo en cuenta al mismo tiempo la incertidumbre de la demanda.

2.png

Figura 2 Solicitudes de recursos en un clúster con diferentes granularidades de datos

catástrofe

Este artículo propone un marco innovador de escalamiento elástico basado en predicciones para recursos en la nube llamado MagicScaler. El marco incluye principalmente un modelo de predicción basado en un proceso gaussiano de atención multiescala y un tomador de decisiones de optimización de expansión y contracción elástica que considera la incertidumbre de la demanda para lograr el objetivo de "alta QoS (calidad de servicio) y bajo costo". La Figura 3 describe el marco general de MagicScaler, incluidos el predictor y el programador.

3.png

Figura 3 Marco general de MagicScaler

(1) Predictor: la parte del predictor construye principalmente un modelo de predicción de regresión gaussiana basado en el mecanismo de atención de múltiples escalas. El diseño del modelo de predicción integra orgánicamente dos estrategias de predicción eficientes: una es un mecanismo de atención de múltiples escalas, que puede capturar características complejas de múltiples escalas; la otra es la regresión de procesos estocásticos para cuantificar la incertidumbre de los resultados de la predicción. Esto permite que el modelo de pronóstico logre pronósticos de demanda precisos, combinados con incertidumbre cuantificada, para sentar las bases para un escalamiento elástico posterior.
Insertar descripción de la imagen aquí

4.png

Figura 4 Proceso predictivo

(2) Programador: la parte del programador diseña un tomador de decisiones de optimización de expansión y contracción elástica en función de los resultados de predicción y la incertidumbre cuantificada. Modele escenarios comerciales complejos como un proceso de toma de decisiones de Markov (MDP) y utilice el método de optimización del dominio del tiempo móvil para resolver aproximadamente la estrategia óptima, logrando un equilibrio flexible entre los costos de recursos y los riesgos de violación de QoS. La Figura 5 muestra el proceso del planificador, incluido el proceso de decisión de Markov (MDP), el optimizador y el ejecutor de decisiones de escalamiento elástico. Nuestro escalador elástico toma una distribución probabilística de pronóstico de demanda como entrada y modela el problema de escalamiento elástico como un proceso de decisión de Markov. Teniendo en cuenta que la optimización MDP es un problema de optimización de la ecuación de Bellman de dominio infinito, utilizamos la estrategia de optimización del dominio del tiempo móvil para convertir la solución de la ecuación de Bellman en el dominio del tiempo infinito en planificación estocástica en el dominio del tiempo finito, de modo que la mejor estrategia pueda ser Soluciones óptimas aproximadas de la ecuación de Bellman.

Figura 5 Proceso del programador

El documento realizó experimentos en conjuntos de datos reales de tres grupos del servicio de computación de big data nativo de Alibaba Cloud, MaxCompute. En términos de costo integral y QoS, MagicScaler es significativamente mejor que otros algoritmos de escalado elástico clásicos. Para obtener resultados más experimentales, consulte nuestro The texto original del artículo.

solicitud

En el futuro, estudiaremos más a fondo cómo combinar la tecnología MagicScaler con la estrategia de programación existente de MaxCompute.

  • Título del artículo: MagicScaler: Autoescalado predictivo y consciente de la incertidumbre
  • Autores del artículo: Pan Zhicheng, Wang Yihang, Zhang Yingying, Yang Bin, Cheng Yunyao, Chen Peng, Guo Chenjuan, Wen Qingsong, Tian Xiduo, Dou Yunliang, Zhou Zhiqiang, Yang Chengcheng, Zhou Aoying, Yang Bin

Supongo que te gusta

Origin blog.csdn.net/weixin_48534929/article/details/132535967
Recomendado
Clasificación