¿Qué son los SLA?

escrito en frente

Este artículo pertenece a la columna "100 Preguntas para Resolver el Sistema Teórico de Big Data". Esta columna es original del autor. Por favor indique la fuente de la cita. Por favor señale las falencias y errores en el área de comentarios, ¡gracias!

Para conocer la estructura del directorio y las citas bibliográficas de esta columna, consulte 100 preguntas para resolver el sistema teórico de big data

respuesta

SLA( Service- Level Agreement),也就是服务等级协议,指的是系統服务提供者( Provider)对客户( Customer)的一个服务承诺。
这是衡量一个大型分布式系统是否“健康”的常见方法。

最常见的 4 个 SLA 指标:
1.可用性(Availabilty)
2.准确性(Accuracy)
3.系统容量(Capacity)
4.延退(Latency)

Reponer

ANS

Disponibilidad

La disponibilidad se refiere al porcentaje de tiempo que un servicio del sistema está en funcionamiento.

Para muchos sistemas, la disponibilidad de cuatro 9 (Disponibilidad del 99,99 %, o aproximadamente 50 minutos de tiempo de interrupción del sistema por año) se puede considerar de alta disponibilidad (High Availability).

"Disponibilidad del 99,9%" significa que el servicio del sistema tendrá un período de interrupción del servicio de aproximadamente 86 segundos en un día.

La interrupción del servicio puede deberse al mantenimiento del sistema o puede deberse a que el sistema está actualizando y actualizando los servicios del sistema.

¿Cómo se calcula el número 86 segundos?

99,9% significa que hay un 0,1% de posibilidad de que se interrumpa el servicio del sistema, y ​​hay 24 horas x 60 minutos x 60 segundos en un día, es decir, hay (24×60×60×0,001)=86,4 segundos que el servicio del sistema puede ser interrumpido.
Los cuatro 9 servicios de alta disponibilidad mencionados anteriormente prometen acortar el tiempo de interrupción del servicio en un día a solo (24×60×60x0.0001)=8.64 segundos.

Exactitud

La precisión se refiere a si se permite que algunos datos sean inexactos o se pierdan en los servicios del sistema que diseñamos.

Si se permite que esto suceda, ¿cuál es la probabilidad (porcentaje) de que el usuario lo acepte?, ¿cómo se debe medir?

Diferentes plataformas de sistemas pueden usar diferentes indicadores para definir la precisión. En muchos casos, la arquitectura del sistema definirá este SLA con la tasa de error (Error Rate).

¿Cómo calcular la tasa de error?

Puede dividir el número de solicitudes válidas que provocaron que el sistema generara un error interno (Error interno) por el número total de solicitudes válidas durante este período.

Por ejemplo, si enviamos 100 solicitudes válidas al sistema en un minuto y 5 de ellas hacen que el sistema devuelva un error interno, entonces podemos decir que la tasa de error del sistema en ese minuto es 5/100=5 %. .

Capacidad del sistema

En el procesamiento de datos, la capacidad del sistema generalmente se refiere a la carga esperada que el sistema puede soportar y generalmente se expresa en unidades de solicitudes por segundo.

A menudo podemos ver cuántas QPS (consultas por segundo) o RPS (solicitudes por segundo) puede manejar una determinada arquitectura de sistema.

El QPS o RPS aquí se refiere a cuántas solicitudes puede responder el sistema por segundo.

Latencia

La latencia se refiere al intervalo de tiempo entre el momento en que el sistema recibe la solicitud de un usuario y el momento en que responde a la solicitud.

Al definir el SLA de retraso, a menudo vemos que el SLA del sistema tendrá una declaración de retraso como p95 o p99.

La p aquí se refiere al percentil, que significa percentil.

Si el retraso p95 de un sistema es de 1 segundo, significa que entre 100 solicitudes, el tiempo de respuesta de 95 solicitudes será menor a 1 segundo, y el tiempo de respuesta de las 5 solicitudes restantes será mayor a 1 segundo.

Supongo que te gusta

Origin blog.csdn.net/Shockang/article/details/115610167#comments_26099673
Recomendado
Clasificación