¿Cómo mejorar la estabilidad del sistema?

1. Criterios para juzgar la estabilidad del sistema

Antes de comenzar a hablar sobre la garantía de estabilidad, ¡hablemos de una palabra SLA que se menciona a menudo en la industria! A la industria le gusta usar SLA (acuerdo de nivel de servicio, nombre completo: acuerdo de nivel de servicio) para medir la estabilidad del sistema.Para las empresas de Internet, es un acuerdo mutuamente reconocido definido entre el sitio web y el usuario.

A menudo vemos a las empresas de Internet coreando consignas, debemos lograr tres nueves y cuatro nueves este año, es decir, 99,9%, 99,99%, e incluso cinco nueves, es decir, 99,999%.
Cuanto más 9 represente el tiempo disponible del servicio a lo largo del año, cuanto mayor sea el tiempo, más confiable será el servicio . Tome un 99,99 % estándar como ejemplo, el tiempo de inactividad es de 52,6 minutos y el tiempo de inactividad promedio por semana es de solo 1 minuto, lo que significa que el tiempo de fluctuación de la red puede desaparecer.
El estándar de cálculo de la estabilidad del servicio es, por lo general, el número total de solicitudes: el número de fallas/el número total de solicitudes, como 100-5/100 = 95 %, y varios tiempos de inactividad correspondientes se enumeran a continuación.

1年 = 365天 = 8760小时
3个9        99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
4个9        99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
5个9        99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟

2. La importancia de mejorar la estabilidad del sistema

Creo que esta es una pregunta muy importante ¿Cuál es el propósito de gastar tantos recursos, tiempo y energía, y cuál es el significado de exponer la estabilidad del sistema?

  • ¡No es para que la empresa gane más dinero, sino para que la empresa pierda menos dinero! (comercio electrónico, sistemas comerciales)
  • Mejore la experiencia del usuario al usar el sistema y reduzca la pérdida de usuarios (evaluación del usuario: fluido, basura, úselo nuevamente, use productos de la competencia)

3. La esencia de mejorar la estabilidad del sistema.

  • MTTF (Mean Time To Failure) se refiere al tiempo promedio para que el sistema funcione sin fallas, y toma el valor promedio de todos los períodos de tiempo desde que el sistema comienza a operar normalmente hasta que ocurre una falla. MTTF =∑T1/N
  • MTTR (Mean Time To Repair) se refiere al valor promedio del período de tiempo entre la falla del sistema y el final de la reparación. MTTR =∑(T2+T3)/N
  • MTBF (Tiempo medio entre fallas) se refiere al valor promedio del período de tiempo entre dos fallas del sistema. MTBF =∑(T2+T3+T1)/N

  • Confiabilidad: la métrica es el tiempo medio entre fallas (MTBF), el tiempo después del cual un componente falla y requiere reparación. La mejora de la confiabilidad debe enfatizar la reducción del número de fallas del sistema, es decir, ninguna falla o la menor cantidad posible de fallas, es decir, aumentar el tiempo de MTTF.
  • Disponibilidad: El indicador cuantitativo es el tiempo total que el sistema funciona sin fallas (MTTF) durante el período. Mejorar la disponibilidad requiere un énfasis en reducir el tiempo de recuperación de un desastre, es decir, reducir el tiempo de MTTR.

La esencia de la estabilidad del sistema es mejorar la confiabilidad y la disponibilidad, aumentar el tiempo entre fallas (MTTF) y reducir el tiempo de recuperación de fallas (MTTR) para garantizar la continuidad del negocio y reducir las pérdidas comerciales.

4. Mejorar la trampa cognitiva de la estabilidad del sistema

Esta sección habla brevemente sobre algunos errores comunes cuando mantenemos el sistema y cómo podemos mejorar nuestro nivel cognitivo.

Escollo 1: Mi sistema nunca ha tenido un accidente, no debe fallar

Pensamiento continuo: por lo general, las personas piensan que el pasado, el presente y el futuro son continuos, mientras que el mundo real es discontinuo y la continuidad es solo una suposición cognitiva. La forma de pensar por defecto de los seres humanos es la inducción, y su ámbito de aplicación está dentro de la misma curva, sin mutación. Nuestro sistema es un sistema cambiante, una vez que no se establecen las premisas, la generalización del futuro a partir del pasado ya no es válida.
Actualización cognitiva: reconozca las limitaciones del pensamiento continuo, cambie al pensamiento discontinuo y resuelva la solidificación del pensamiento

Trampa 2: Hay un problema con la red, hay un problema con la infraestructura, no puedo evitarlo, no es mi culpa

Diseño para fallar: nuestro sistema se basa en una infraestructura, como hardware y sistemas operativos, y se basa en middleware, bases de datos, redes y sistemas de terceros. Todos estos pueden fallar. Debemos confiar en estas dependencias. Diseño para fallar.
Actualización cognitiva: todo puede fallar y se deben considerar los escenarios de falla

Trampa 3: He considerado estos escenarios anormales e hice un diseño especial, no debe ser problema

Verificación de simulacros de fallas:  si todos nuestros diseños son válidos, deben verificarse como física y química, y las cosas que no han sido verificadas son

No se puede confiar. Necesitamos simular escenarios de falla, realizar la verificación del diseño de confiabilidad y la verificación del diseño de usabilidad de acuerdo con la probabilidad de ocurrencia, el grado de daño y las consecuencias, y demostrar que funciona como esperamos.
Actualización cognitiva: si el diseño es efectivo o no, debe probarse mediante simulacros de fallas.

Trampa 4: Es muy poco probable que suceda este escenario de falla

Ley de Murphy: Hay cuatro aspectos principales:

  • Nada es tan simple como parece;
  • Todo llevará más tiempo de lo que esperabas;
  • Lo que puede salir mal siempre saldrá mal;
  • Si te preocupa que algo suceda, es más probable que suceda.

El contenido fundamental de la Ley de Murphy se refiere a que cualquier evento, mientras tenga una probabilidad mayor a cero, no se puede erigir que no sucederá.
Mejora cognitiva: Preocúpate por lo que sucederá tarde o temprano, acaba con la mentalidad de chiripa

Trampa 5: hay muchas alarmas en estos días, pero no hay comentarios de los usuarios, hablemos de eso en unos días.

Ley de Hayne: Cualquier accidente inseguro es prevenible. La Ley de Hayne es una ley sobre la seguridad de los vuelos en la industria de la aviación. La ley de Hayne señala: Detrás de cada accidente grave, debe haber 29 accidentes menores, 300 tentativas precursoras y 1.000 riesgos de accidente.

De acuerdo con el análisis de la ley de Hayne, cuando ocurre un accidente mayor, mientras estamos lidiando con el accidente en sí, también debemos tratar con prontitud los "accidentes" de problemas similares.

Los "síntomas" y los "signos de accidentes" se investigan y tratan para evitar la recurrencia de problemas similares, resolver oportunamente los peligros ocultos de accidentes importantes y resolver los problemas de raíz.

La ley de Hayne enfatiza dos puntos: primero, la ocurrencia de accidentes es el resultado de la acumulación de cantidad; segundo, no importa cuán buena sea la tecnología, no importa cuán perfectas sean las regulaciones, al nivel de la operación real, no pueden reemplazar la mejora de la calidad y el sentido de responsabilidad de las personas
: no se descuide, las cosas cambiarán de cuantitativas a cualitativas

5. Métodos específicos para mejorar la estabilidad del sistema

Hay muchas cosas mencionadas anteriormente, que son estándar y significativas, y las siguientes son bienes secos. Pensé que hice un resumen desde mi propio punto de vista.

6. Resumen

El sistema es como un automóvil que corre a alta velocidad, habrá nuevos requisitos y nuevos problemas esperándonos en cualquier momento, no podemos dejar que este automóvil de alta velocidad se detenga para solucionar problemas, por lo que solo podemos solucionarlo cuando es En marcha, esta es una operación muy arriesgada, por lo que debemos hacer un buen trabajo en todos los aspectos para asegurarnos de que no saldrá mal. Mejorar la estabilidad del sistema no sucede de la noche a la mañana, es un proceso a largo plazo, así que no se relaje y resuelva los problemas a tiempo.

 

 

Esta es una persona de la montaña trasera, y yo soy un invitado frente a mí. Drunk Dance Jingge medio volumen de libros, sentado en el pozo para hablar sobre la inmensidad del cielo. ¡Perdón por la mala redacción!

Supongo que te gusta

Origin blog.csdn.net/qq_42859864/article/details/128707329
Recomendado
Clasificación