Nuevo paradigma de prueba continua: integración de marcación y prueba de presión

Autor: Fuyi

Recientemente, en la Conferencia de Competitividad de Calidad TiD2023, Wu Yao del Equipo de Observabilidad Nativa de la Nube de Alibaba Cloud compartió el tema "Nuevo paradigma de pruebas continuas: integración de marcación, presión y prueba", que incluyó tres partes:

  • La continuidad del negocio requiere una plataforma estable
  • Análisis de evolución y tendencias de la plataforma de estabilidad de Alibaba
  • El concepto y las mejores prácticas de medición integrada de la presión del dial.

Cómo garantizar la continuidad del negocio

Antes de comenzar oficialmente con el tema de hoy, hablemos de la continuidad del negocio. Con el rápido desarrollo y la aplicación generalizada de la tecnología de la información, la innovación empresarial y el funcionamiento normal representados por Internet y la industria financiera dependen cada vez más del funcionamiento seguro y estable de los sistemas de información. Cómo garantizar que las funciones comerciales clave respaldadas por los sistemas de información puedan restaurarse a tiempo y continuar operando después de que ocurra una falla o un desastre, para reducir las pérdidas que pueden ser causadas por una falla o un desastre, se ha convertido en una cuestión clave que deben ser considerados en la construcción, operación y mantenimiento de la tecnología.

Tanto las empresas industriales como las agencias gubernamentales siempre han otorgado gran importancia a la recuperación ante desastres y la construcción de la continuidad del negocio, y han emitido una serie de especificaciones y opiniones prescriptivas, como la "Especificación de recuperación ante desastres del sistema de información de tecnología de seguridad de la información" (GB/T 20988 - 2007 ) y "Especificaciones de gestión de recuperación de desastres del sistema de información bancaria" (JR/T0044-2008) y otras normas y especificaciones. Al mismo tiempo, existen muchos modelos de continuidad del negocio en la industria para guiar a las empresas en la implementación de la construcción de continuidad, el más conocido de los cuales es el modelo 6R. El modelo 6R describe en detalle el ciclo de vida completo de una falla desde su ocurrencia hasta su final. Si observamos el ciclo completo del modelo, podemos ver que todo el ciclo se divide en tres líneas de defensa para garantizar la continuidad del negocio: prevención y control antes del incidente, respuesta durante el incidente y reconstrucción después del incidente.

Antes de que ocurra una interrupción del negocio se realizan principalmente trabajos de prevención y control, lo que se denomina etapa Reducir, es decir, etapa de reducción de riesgos. La etapa Reducir consiste en organizar el equipo para llevar a cabo la gestión diaria de riesgos, la gestión de operación y mantenimiento de TI, la gestión de la continuidad del negocio y otros trabajos de gestión. Después de que ocurre una interrupción del negocio, el trabajo de respuesta en proceso se lleva a cabo y se divide en la etapa de Respuesta (respuesta de emergencia) y la etapa de Recuperación y Reanudación (reinicio). La fase de Responder (respuesta de emergencia) lleva a cabo la reunión de personal, la comprensión e informes de la situación, la evaluación de daños, la resolución de problemas, etc.; la fase de Recuperación (recuperación) implementa principalmente planes de recuperación, incluidos planes para la parte de TI, la parte comercial y las funciones de soporte de soporte. La ejecución del plan de recuperación se inicia después de que se declara una falla o un desastre. Una vez ejecutado el plan de recuperación, el evento se estabiliza, ingresa a las fases de Restauración y Retorno y el negocio vuelve al estado normal.

En el proceso de resumen y revisión continua de la construcción de estabilidad, encontramos que cuanto mayor sea la inversión en las etapas de prevención, control y respuesta antes del incidente, el número total de fallas a lo largo del año se reducirá en consecuencia. Por lo tanto, mientras continuamos invirtiendo en la construcción de estabilidad, hemos identificado dos necesidades centrales, a saber, el refuerzo de dos líneas de defensa:

Refuerzo de la primera línea de defensa: simular tráfico real para pruebas de estrés para verificar la capacidad del sistema; simulacros de fallas para verificar la tolerancia a desastres del sistema.

Refuerzo de la segunda línea de defensa: desplazar el punto de interrupción percibido hacia la izquierda para detectar fallas comerciales de manera oportuna; establecer un mecanismo de plan de cambio para degradar rápidamente y detener las pérdidas.

En primer lugar, es el refuerzo de la primera línea de defensa, es decir, la prevención y el control preventivos para interceptar el mayor número de faltas posible. Por un lado, se realizan suficientes pruebas funcionales antes del lanzamiento del negocio y, al mismo tiempo, se llevan a cabo pruebas de capacidad de los negocios principales clave para simular el tráfico real, lo que también es una prueba de estrés. Por otro lado, realice simulacros de fallas en el entorno de preproducción o en el entorno de escala de grises antes de que todo el sistema entre en línea. Por ejemplo, inyecte fallas en la capa de infraestructura y la capa de aplicación respectivamente para observar si la capacidad de autorreparación del sistema cumple con las expectativas. Por lo tanto, el refuerzo de la primera línea de defensa debe garantizar que esta falla pueda eliminarse por adelantado antes de que el sistema entre en línea.

En segundo lugar, se trata del refuerzo de la segunda línea de defensa, es decir, de acortar el tiempo empleado en responder a las incidencias. El tiempo para afrontar un incidente se divide en dos partes: tiempo de percepción y tiempo de recuperación. En cuanto al tiempo de detección, esto impone nuevos requisitos a la plataforma de monitoreo y estabilidad, es decir, mover el punto de detección hacia la izquierda tanto como sea posible y no esperar hasta que el cliente haya detectado la falla y haya proporcionado retroalimentación antes de procesarla. Logre la capacidad de detectar proactivamente por adelantado y detener rápidamente las pérdidas después de detectar fallas. Al mismo tiempo, en el proceso de producción real, a medida que ocurren cada vez más fallas inesperadas, necesitamos un mecanismo completo de plan de contingencia. En realidad, esta es la construcción del sistema SRE, que utiliza un conjunto completo de mecanismos de respuesta para hacer frente a diversas fallas. Durante la práctica de Alibaba, diseñamos un mecanismo de plan de cambio para abstraer varias fallas históricas en el plan. Durante el proceso de manejo de fallas, se diseña un interruptor de degradación funcional que se puede configurar dinámicamente. Durante una promoción importante, si la capacidad de algunos servicios ha alcanzado el umbral del nivel del agua y afectará la estabilidad, las funciones correspondientes se pueden degradar directamente mediante interruptores dinámicos para garantizar una experiencia de usuario fluida.

Las mejores prácticas de Alibaba para garantizar la continuidad del negocio

A continuación, echemos un vistazo a la evolución de la construcción del sistema de estabilidad de Alibaba y Alibaba Cloud, y cómo medir los beneficios de la construcción del sistema.

La evolución de toda la plataforma de estabilidad está estrechamente relacionada con la evolución de la arquitectura técnica y se divide principalmente en tres etapas principales.

En primer lugar, cuando Taobao recién comenzó, la arquitectura técnica era principalmente una aplicación única. A medida que aumenta el volumen de negocios, las aplicaciones únicas PHP son reemplazadas por aplicaciones únicas Java. Hasta 2008, las aplicaciones únicas de Java también encontraban cuellos de botella comerciales: la lógica empresarial interna era muy compleja, había muchos desarrolladores y la eficiencia de la iteración era muy baja. Desde entonces, Alibaba comenzó a intentar dividir la arquitectura de aplicaciones distribuidas y, después del surgimiento de Alibaba Cloud, migró gradualmente el sistema central de transacciones de comercio electrónico a la nube para hacer frente a negocios cada vez a mayor escala. En 2018, Alibaba básicamente dirigió todo su negocio en la nube y comenzó a experimentar con exploraciones nativas de la nube, como la contenedorización y la tecnología sin servidor.

Al mismo tiempo, con la evolución de la arquitectura técnica, Alibaba está generando estabilidad en torno a la tolerancia a fallas, la recuperación remota de desastres multiactiva y la planificación de capacidades. La estabilidad se mejora mediante la introducción de medios técnicos como una plataforma de análisis de enlaces de llamadas, capacidades de perforación de fallas y sistemas de pruebas de estrés, y proyectos como ChaosBlade son de código abierto y se ingresan en CNCF Sandbox.

Al mismo tiempo, en el proceso de respaldar la implementación interna y externa de las pruebas de estrés, descubrimos que las responsabilidades y la autoridad del rol de prueba se movieron hacia la derecha en el gráfico circular de DevOps. Cada vez más equipos de pruebas no solo son responsables de las pruebas funcionales y de rendimiento antes de conectarse, que es la etapa de prueba. Una vez que la función está en línea, el sitio y la disponibilidad del negocio en línea deben monitorearse activamente mediante pruebas de marcado, que es la etapa de Monitoreo. También basándose en las tendencias y necesidades anteriores, el equipo observable nativo de la nube propuso el concepto de integrar presión y presión para ayudar a los equipos de operación, mantenimiento y pruebas a desarrollar mejor la estabilidad. Los beneficios para el equipo son muy claros:

  • Mejore la estabilidad del negocio: las pruebas de estrés verifican el rendimiento del sistema para garantizar la estabilidad de la capacidad, las pruebas de acceso telefónico monitorean la disponibilidad del negocio en línea en tiempo real, descubren problemas antes del lado comercial y reducen el radio de explosión.
  • Eficiencia organizacional mejorada: el equipo de pruebas está unificado a cargo de las pruebas de estrés, y el trabajo de clasificar los scripts de pruebas comerciales ya no requiere que los equipos de prueba y operación y mantenimiento lo hagan dos veces; el equipo de operación y mantenimiento se enfoca en el monitoreo de recursos y en línea. El seguimiento del negocio se deja en manos del equipo de pruebas.
  • Las herramientas mejoran la eficiencia: las pruebas de presión y de acceso telefónico comparten una plataforma, un conjunto de sintaxis de script y un conjunto de datos de prueba, lo que mejora la sensación de felicidad de los ingenieros.

Beneficios específicos para el negocio, como reducir la cantidad de fallas, acortar el tiempo de recuperación de fallas, mejorar el tiempo libre de fallas y el intervalo de fallas, y reducir la inversión humana en el manejo de fallas, etc.

¿Cuál es la integración de la medición de la presión del dial?

El tráfico comercial a menudo tiene efectos de pico y valle. Las interrupciones comerciales durante los períodos pico se pueden detectar de manera oportuna mediante alarmas y monitoreo de aplicaciones del servidor. Sin embargo, durante períodos bajos de tráfico comercial, cómo detectar interrupciones comerciales se convierte en un problema. Si el umbral de alarma se configura en función de los indicadores de monitoreo durante los períodos de mayor actividad comercial, las alarmas no se activarán durante los períodos de poco tráfico y no se percibirá la interrupción del negocio. Si el umbral de alarma se configura demasiado bajo, se generará una gran cantidad de falsas alarmas. recibidos durante los periodos de mayor actividad comercial. En respuesta a los problemas anteriores y al cambio a la derecha mencionado anteriormente, las pruebas de dial y las pruebas de presión se combinan orgánicamente.

(1) ¿Qué es la prueba de marcación?

Dial Test es una herramienta de monitoreo de rendimiento y disponibilidad de servicio proactiva, lista para usar y sin intrusiones. Simula el comportamiento comercial de usuarios reales mediante la implementación de puntos de monitoreo en todo el mundo, inicia pruebas en el sitio con regularidad y monitorea continuamente continuidad del negocio y rendimiento, rendimiento de la red y medir la experiencia del usuario. Como servicio de monitoreo activo, no se ve afectado por los períodos de pico y valle del negocio y protege la continuidad del negocio durante todo el ciclo. Las capacidades principales y los escenarios de aplicación de las pruebas de marcado en la nube son los siguientes:

(2) ¿Qué es la prueba de presión?

Las pruebas de estrés son una herramienta indispensable en la planificación de capacidades y creo que todos la conocen muy bien. Según los diferentes escenarios de verificación, las pruebas de estrés se pueden dividir en los siguientes tipos de pruebas:

(3) Plataforma integrada para marcación y medición de presión.

Se puede ver que las pruebas de acceso telefónico y las pruebas de estrés prueban la capacidad, la disponibilidad y el rendimiento del sistema simulando el comportamiento de usuarios reales. Desde la perspectiva de los escenarios comerciales y la arquitectura del sistema, las plataformas de prueba de acceso telefónico y las pruebas de estrés. Las plataformas son muy similares. Por lo tanto, integramos la plataforma de acceso telefónico y prueba de presión en una plataforma integrada de acceso telefónico y prueba de presión, y una gestión y control unificados de scripts, tareas de programación y tráfico.

Es necesario preparar guiones comerciales antes de las pruebas de estrés. De hecho, las pruebas de marcado también requieren dicho conjunto de guiones. Cuando las pruebas de marcación y las pruebas de estrés se dividen en dos plataformas, el mismo conjunto de procesos comerciales debe configurarse dos veces utilizando la sintaxis de las dos plataformas. Al integrar el script de marcación y prueba de presión, el trabajo de configuración del script se puede reducir a la mitad. Un conjunto de scripts puede iniciar tanto la marcación como la prueba de presión.

Mejores prácticas para la medición integrada de presión y dial

La plataforma de prueba de velocidad del sitio web de Alibaba Cloud admite pruebas de acceso telefónico para PING, TCP, DNS, pruebas de velocidad del sitio web, interfaz HTTP, descarga de archivos y otros escenarios, y admite pruebas de estrés de la interfaz HTTP. También puede iniciar una prueba de comparación a través de la plataforma de prueba de velocidad del sitio web de Alibaba Cloud para comprender la diferencia de rendimiento entre los dos sitios web. A continuación se describe cómo verificar la disponibilidad del sitio y el rendimiento de la interfaz a través de la plataforma de prueba de velocidad del sitio web de Alibaba Cloud .

(1) Iniciar una tarea de prueba de velocidad del sitio web

Aquí, utilizamos el acceso simulado de operadores de telecomunicaciones, móviles y Unicom de China al sitio web oficial de Alibaba Cloud en 34 capitales provinciales de todo el país como ejemplo para demostrar cómo utilizar la plataforma de prueba de velocidad del sitio web de Alibaba Cloud para probar la velocidad del sitio web.

  1. Inicie sesión en la plataforma de prueba de velocidad del sitio web de Alibaba Cloud [ 1] .

  2. Seleccione el tipo de prueba de dial. Seleccione aquí la prueba de velocidad del sitio web .

  3. Haga clic en el cuadro desplegable debajo del tipo de medición del dial y seleccione un punto de monitoreo. Los operadores seleccionados aquí son China Telecom, China Mobile y China Unicom , y las regiones seleccionadas son 34 capitales de provincia de todo el país .

  4. Ingrese la dirección de la aplicación web que debe marcarse para realizar la prueba en el lado derecho del cuadro desplegable. Por ejemplo: www.aliyun.com .

  5. Haga clic en Iniciar ahora .

  1. En el área de resultados de la prueba de acceso telefónico, verifique la disponibilidad del sitio web, el tiempo del primer paquete, el tiempo de la primera pantalla, el tiempo de carga completa y otros indicadores, así como una lista de datos detallada de cada punto de monitoreo.

  1. Haga clic en los detalles en el lado derecho del punto de monitoreo correspondiente en la lista de datos detallados para ver los indicadores de desempeño detallados y los elementos de la página del punto de monitoreo correspondiente.

Actuación

elementos de pagina

(2) Iniciar una prueba de comparación

También puede iniciar una prueba de comparación a través de la plataforma de prueba de velocidad del sitio web de Alibaba Cloud para comprender la diferencia de rendimiento entre los dos sitios web.

Aquí, tomamos como ejemplo el acceso simulado de los operadores de telecomunicaciones, telefonía móvil y China Unicom a Alibaba Cloud y otros proveedores de nube en 34 capitales provinciales de todo el país para demostrar cómo utilizar la plataforma de prueba de velocidad del sitio web de Alibaba Cloud para comparar el rendimiento de los dos sitios web.

  1. Inicie sesión en la plataforma de prueba de velocidad del sitio web de Alibaba Cloud.

  2. Seleccione el tipo de prueba de dial. Seleccione aquí la prueba de velocidad del sitio web .

  3. Haga clic en el cuadro desplegable debajo del tipo de medición del dial y seleccione un punto de monitoreo. Los operadores seleccionados aquí son China Telecom, China Mobile y China Unicom , y las regiones seleccionadas son 34 capitales de provincia de todo el país .

  4. Haga clic en Comparar y marcar prueba y luego ingrese la dirección de la aplicación web que debe compararse y marcarse. Por ejemplo: www.aliyun.com y www.XXcloud.com .

  5. Haga clic en Iniciar ahora .

  6. En el área de resultados de la prueba de marcado, verifique la disponibilidad de los dos sitios web, el tiempo del primer paquete, el tiempo de la primera pantalla, el tiempo de carga completa y otros indicadores, así como una lista de datos detallada de cada punto de monitoreo.

  1. Haga clic en los detalles en el lado derecho del punto de monitoreo correspondiente en la lista de datos detallados para ver los indicadores de desempeño detallados y los elementos de la página del punto de monitoreo correspondiente.

(3) Iniciar pruebas de rendimiento

  1. Inicie sesión en la plataforma de prueba de velocidad del sitio web de Alibaba Cloud.

  2. Seleccione prueba de estrés de desempeño.

  3. Ingrese la dirección de la aplicación web que necesita ser sometida a prueba de estrés. Por ejemplo: www.example.com/api/test
    Nota: asegúrese de tener permisos de prueba de estrés para esta URL. Todas las consecuencias legales resultantes de las URL de prueba de estrés para las que no tiene permiso correrán a cargo de usted.

  4. Verifique los indicadores de rendimiento de la interfaz en la prueba de estrés.

Últimos eventos y pruebas gratuitas

¡El campamento de entrenamiento de práctica PTS de prueba de rendimiento está en pleno apogeo!

Participe en el campo de capacitación para recibir una cuota gratuita de 5000 VUM, comience rápidamente a utilizar PTS de prueba de rendimiento, simule usuarios reales para iniciar pruebas de estrés de alto tráfico y alta concurrencia en sistemas empresariales, verifique la selección de especificaciones de productos en la nube y localice cuellos de botella en el rendimiento del servicio de aplicaciones. .

Participa ahora: https://developer.aliyun.com/trainingcamp/f8400b45d23c4bdf86af0c9d6711de7b

Prueba gratis

Cloud Dial-in Test ofrece 3000 pruebas de acceso telefónico gratuitas cada mes. Haga clic en el enlace para recibir la cuota gratuita de inmediato, comprender el rendimiento del sitio web en tiempo real e iniciar rápidamente una prueba de velocidad del sitio web.

https://free.aliyun.com/?product=9760242,9602838&spm=5176.28055625.J_5831864660.9.1649154aJ7iiyZ

Enlaces relacionados:

[1] Plataforma de prueba de velocidad del sitio web de Alibaba Cloud

https://cesu.pts.aliyun.com/

El autor del marco de código abierto NanUI pasó a vender acero y el proyecto fue suspendido. La primera lista gratuita en la App Store de Apple es el software pornográfico TypeScript. Acaba de hacerse popular, ¿por qué los grandes empiezan a abandonarlo? Lista de octubre de TIOBE: Java tiene la mayor caída, C# se acerca Java Rust 1.73.0 lanzado Un hombre fue alentado por su novia AI a asesinar a la Reina de Inglaterra y fue sentenciado a nueve años de prisión Qt 6.6 publicado oficialmente Reuters: RISC-V La tecnología se convierte en la clave de la guerra tecnológica entre China y Estados Unidos. Nuevo campo de batalla RISC-V: no controlado por ninguna empresa o país, Lenovo planea lanzar una PC con Android.
{{o.nombre}}
{{m.nombre}}

Supongo que te gusta

Origin my.oschina.net/u/3874284/blog/10117270
Recomendado
Clasificación