Diseño de arquitectura jerárquica para la operación y el mantenimiento de aplicaciones de TI de nivel empresarial

Las empresas básicamente tienen sus propios sistemas de TI, y cada sistema de TI tiene su propio sistema de monitoreo.

Un marco de monitoreo de aplicaciones de TI de nivel empresarial es una solución integral que involucra muchos niveles y herramientas correspondientes. A medida que la escala y la complejidad de los sistemas de TI empresariales siguen aumentando, los sistemas de supervisión y gestión también se enfrentan a desafíos cada vez mayores.

A veces, las personas no saben por dónde empezar cuando establecen el monitoreo; a veces, después de establecer un sistema de monitoreo, descubren que muchos puntos ciegos no se pueden monitorear.

Este artículo compartirá los principios básicos del monitoreo de operación y mantenimiento de aplicaciones de TI, el sistema de monitoreo general y los escenarios de aplicaciones, el diseño de la plataforma de monitoreo, los métodos de implementación de monitoreo inteligente, etc.

1. Principio de seguimiento

El principio básico de la arquitectura de monitoreo de operación y mantenimiento de aplicaciones de TI a nivel empresarial es realizar un monitoreo y una gestión integrales de los sistemas de TI de la empresa mediante la recopilación, el almacenamiento, el análisis y la visualización de diversos datos de monitoreo. Entre ellos, los datos de monitoreo incluyen el sistema, la red, la aplicación y otros datos de indicadores, datos de eventos y datos de registro, etc., que se pueden recopilar a través de varios recopiladores de datos.

Los datos recopilados pueden almacenarse en sistemas de almacenamiento, como bases de datos distribuidas, bases de datos NoSQL o almacenes de datos, y transformarse en indicadores visuales de seguimiento a través del análisis y procesamiento de datos, y mostrarse a través de paneles, gráficos, informes, etc.

Al mismo tiempo, los datos de monitoreo se pueden monitorear y alarmar en tiempo real a través del sistema de alarma, y ​​el sistema de TI se puede administrar y optimizar automáticamente a través de la operación y el mantenimiento automáticos.

2. nivel de seguimiento

En términos generales, debe haber monitoreo dondequiera que haya sistemas de TI, y la distribución de los sistemas de TI en diferentes empresas es diferente. Algunas empresas tienen una gran cantidad de sistemas de borde, como: computadoras, computadoras industriales, etc.; algunas empresas tienen su propia sala de computadoras IDC, y sus propios sistemas de TI se construyen en la sala de computadoras de IDC; algunas empresas construyen sus propios sistemas de TI en la nube pública; Algunas empresas han establecido una arquitectura de nube híbrida, que incluye salas de computadoras IDC y nubes públicas.

El sistema de monitoreo de TI está adjunto. Para el sistema de borde, hay un sistema de monitoreo de Internet de las Cosas similar a IOT; la sala de computadoras de IDC tiene un sistema de monitoreo para equipos de red (esto generalmente lo proporciona el proveedor de red); el sistema en la nube pública es proporcionado por el proveedor de la nube. Proporcione un sistema de monitoreo completo; si hay una arquitectura de nube híbrida, entonces el equipo de construcción del sistema de monitoreo debe integrar los sistemas de monitoreo dentro y fuera de la nube para proporcionar un monitoreo unificado.

El monitoreo anterior se clasifica desde la perspectiva del sistema, y ​​lo que se hace es monitoreo del sistema.Este artículo analiza cómo dividir las capas desde la perspectiva de la operación y el mantenimiento de la aplicación.

2.1 Monitoreo de API

El monitoreo de API (interfaz de programación de aplicaciones), también conocido como monitoreo de front-end, se refiere al proceso de monitoreo y administración en tiempo real del uso, rendimiento, seguridad, etc. de las API. Por lo general incluye:

A. Supervisión de uso: supervise el estado de las llamadas de las API, la frecuencia de uso, la tasa de error, etc., para comprender el estado de uso y tráfico de las API.

B. Supervisión del rendimiento: supervise los indicadores de rendimiento de las API, como el tiempo de respuesta, el retraso y el rendimiento, para descubrir problemas de rendimiento y cuellos de botella de las API a tiempo.

C. Supervisión de la seguridad: Supervise la seguridad de las API, incluida la autenticación, la autorización, el control de acceso, etc., para proteger las API de las amenazas a la seguridad.

D. Supervisión de errores: supervise las condiciones de error de las API, incluido el tipo de error, el código de error, la frecuencia de error, etc., para descubrir y resolver los problemas de error de las API de manera oportuna.

2.2 Supervisión de la capa de aplicación

El monitoreo de la capa de aplicación se refiere al proceso de monitoreo y administración en tiempo real del rendimiento, la disponibilidad, la seguridad, etc. de la aplicación. Por lo general incluye:

A. Supervisión del rendimiento de la aplicación: Supervise los indicadores de rendimiento de la aplicación, incluidos los cuatro indicadores dorados, como el tiempo de respuesta de la solicitud, el rendimiento y la tasa de saturación de la tasa de error, para descubrir problemas de rendimiento de la aplicación y cuellos de botella a tiempo.

B. Supervisión de la disponibilidad: supervise la disponibilidad de la aplicación, incluido el estado de ejecución de la aplicación, la cantidad de visitas, la tasa de error, etc., para garantizar el funcionamiento normal y la disponibilidad de la aplicación.

C. Monitoreo de seguridad: monitorear la seguridad de la aplicación, incluido el firewall de la aplicación, la detección de intrusos, los eventos de seguridad, etc., para proteger la aplicación de las amenazas a la seguridad. Generalmente, esto es responsabilidad del equipo de seguridad y del personal de operación y mantenimiento. están menos involucrados.

D. Gestión de registros: recopile, analice y visualice la información de registro de la aplicación para ayudar a los usuarios a descubrir y resolver rápidamente los problemas y las excepciones de la aplicación.

Para realizar el monitoreo de la capa de aplicación, herramientas y plataformas correspondientes:

A. Herramienta de monitoreo del rendimiento de la aplicación: al monitorear los indicadores de rendimiento de la aplicación, puede ayudar a los usuarios a descubrir rápidamente los problemas de rendimiento y los cuellos de botella de la aplicación.

B. Herramienta de monitoreo de disponibilidad: al monitorear el estado de ejecución y los tiempos de acceso de la aplicación para garantizar el funcionamiento normal y la disponibilidad de la aplicación.

C. Herramientas de monitoreo de seguridad: similar al monitoreo de las API, se compone principalmente de herramientas de escaneo de vulnerabilidades, sistemas de detección de intrusos y otras herramientas. Por ejemplo, se utiliza una herramienta de terceros en el código recién lanzado de la aplicación. Si esto La herramienta tiene una vulnerabilidad de puerta trasera, será monitoreada.

D. Herramienta de gestión de registros: al recopilar, analizar y visualizar la información de registro de la aplicación, ayuda a los usuarios a descubrir y resolver rápidamente problemas de aplicaciones y situaciones anormales.

2.3 Supervisión de la capa de recursos

El monitoreo de la capa de recursos se refiere al proceso de monitoreo y administración en tiempo real de varios recursos (como CPU, memoria, disco, red, etc.) del sistema informático, que incluye no solo servidores, sino también contenedores. también incluye el seguimiento del número de contenedores y su estado.

2.4 Supervisión de la capa de enlace

El monitoreo de la capa de enlace se refiere al proceso de monitoreo y administración en tiempo real del proceso de interacción entre componentes y módulos en un sistema distribuido. El monitoreo de la capa de enlace puede ayudar a los usuarios a descubrir y resolver rápidamente los problemas y cuellos de botella de las aplicaciones, y mejorar la confiabilidad y el rendimiento de las aplicaciones.

2.5 Monitoreo de back-end

El monitoreo de backend se refiere al proceso de monitoreo y administración en tiempo real de backends de aplicaciones (como bases de datos, cachés, colas de mensajes, etc.). El monitoreo de la base de datos es una parte importante del monitoreo de back-end, principalmente para monitorear y administrar el rendimiento, la disponibilidad y la seguridad de la base de datos para garantizar el funcionamiento normal y la estabilidad de la aplicación.

La supervisión de back-end también incluye la supervisión del rendimiento, la supervisión de la disponibilidad, la supervisión de la seguridad y la supervisión de registros, que son similares a la supervisión de la capa de aplicación.

Hoy en día, cuando la nube pública es popular, cada vez más empresas migran el backend (base de datos, redis, etc.) a la nube pública. Estos indicadores los proporcionará la nube pública. Lo que tenemos que hacer es introducir estos indicadores desde la nube pública a la pantalla local. .

2.6 Seguimiento del negocio

El monitoreo comercial se refiere al proceso de monitoreo y gestión en tiempo real de las funciones comerciales de la aplicación, centrándose en el proceso comercial y los indicadores comerciales de la aplicación para garantizar el funcionamiento normal de las funciones comerciales de la aplicación y la realización del valor comercial. .

2.7 Supervisión de las capacidades de operación y mantenimiento

SLA (Acuerdo de nivel de servicio), SLO (Objetivo de nivel de servicio) y SLI (Indicador de nivel de servicio) son indicadores importantes para medir indicadores de capacidad de operación y mantenimiento. SLA es un acuerdo para medir la calidad del servicio al cliente, y SLO y SLO son indicadores para medir si la confiabilidad del sistema operado y mantenido está a la altura.

3. Seguimiento del mercado e indicadores sintéticos de seguimiento

La solución a este problema pasa por vigilar el mercado

Plataforma de Monitoreo Linkosla

Hay demasiados indicadores de seguimiento y tenemos que sintetizarlos, así nacieron los indicadores de seguimiento sintéticos.

Los indicadores de seguimiento sintéticos se refieren a indicadores completos obtenidos mediante la combinación y el cálculo de múltiples indicadores de seguimiento, y se utilizan para juzgar el estado general de salud y el estado de rendimiento de la aplicación. Las métricas de monitoreo sintéticas generalmente se combinan a partir de múltiples métricas individuales y pueden reflejar el rendimiento general y el estado de una aplicación.

El método de cálculo del índice de seguimiento sintético se puede determinar de acuerdo con la situación específica, y los métodos de cálculo comunes incluyen lo siguiente:

A. Promedio: calcule el promedio de varios indicadores, como el promedio del tiempo de respuesta de la solicitud, el promedio de la carga del servidor, etc.

B. Promedio ponderado: calcule el promedio ponderado de múltiples indicadores y asigne pesos a diferentes indicadores según su importancia, como el promedio ponderado del tiempo de respuesta de la solicitud y la carga del servidor.

C. Percentil: calcule el percentil de varios indicadores para reflejar la distribución y el valor extremo del indicador, como el percentil 95 del tiempo de respuesta de la solicitud.

D. Índice completo: al ponderar y sumar varios indicadores, se genera un índice completo para medir el rendimiento general y el estado de la aplicación, como la puntuación del estado de la aplicación, el índice de rendimiento, etc.

Las métricas de monitoreo sintéticas pueden ayudar a los usuarios a obtener una comprensión más completa del rendimiento y el estado de las aplicaciones, e identificar y resolver problemas con mayor rapidez.

4. Monitoreo inteligente y alarma

El monitoreo inteligente y las alarmas se refieren al proceso de monitorear y administrar de manera inteligente las aplicaciones utilizando tecnologías de inteligencia artificial y aprendizaje automático. El monitoreo inteligente puede ayudar a los usuarios a encontrar y resolver problemas de manera más rápida y precisa, y mejorar la estabilidad y confiabilidad de las aplicaciones.

A. Identifique anomalías automáticamente: no confíe únicamente en umbrales para generar alarmas, utilice tecnologías de aprendizaje automático y análisis estadístico para analizar y modelar indicadores de monitoreo de aplicaciones, identifique automáticamente situaciones anormales y genere alarmas o active automáticamente acciones de respuesta preestablecidas.

B. Ajuste automático de la configuración: optimice automáticamente los parámetros de la aplicación, utilizando tecnologías como el aprendizaje automático y los algoritmos de optimización, para ajustar automáticamente los parámetros de configuración de la aplicación para optimizar el rendimiento y la estabilidad de la aplicación.

C. Análisis predictivo: prediga posibles riesgos de fallas con anticipación, utilice técnicas como el aprendizaje automático y el análisis de series temporales para analizar y modelar datos históricos de aplicaciones, predecir tendencias futuras y posibles problemas, y tomar medidas preventivas con anticipación y resolución de problemas.

D. Reducir las alarmas duplicadas: fusión de alarmas, utilizar el aprendizaje automático para juzgar las alarmas que se han generado, reducir el nivel de alarmas sin importancia o fusionar alarmas similares, y no activar o activar menos en la alarma.

E. Reducir la fluctuación de alarma: la convergencia de alarmas, cuando se produce una fluctuación anormal en los datos de monitoreo, si el sistema de monitoreo debe alarmar siempre ha sido un problema.Usar el aprendizaje automático para analizar datos de monitoreo multidimensionales y algoritmos de agrupamiento para determinar la relevancia de los eventos, y Reduzca la posibilidad de alarmas múltiples o falsas.

F. Generación de escenarios de alarma: las alarmas que están cerca de los escenarios comerciales del usuario, el análisis de valor extremo y el procesamiento de reducción de ruido se realizan en los datos de monitoreo, y las alarmas relacionadas con el negocio del usuario se asocian con elementos de CI para formar un escenario.

El monitoreo inteligente y las alarmas no anulan el sistema de monitoreo y alarmas original, es una extensión del monitoreo y alarmas originales, que brinda a las empresas una mejor experiencia de monitoreo y alarmas.

Gerente de Operación y Mantenimiento Inteligente de Linksla

Supongo que te gusta

Origin blog.csdn.net/LinkSLA/article/details/132018837
Recomendado
Clasificación