Artículo largo | El sistema de monitoreo inteligente de Pacific Insurance basado en Zabbix

Compartiremos la historia de la construcción de la plataforma de monitoreo CPIC, la plataforma de monitoreo integrada basada en Zabbix, la fusión de datos de monitoreo, la creación de una plataforma de monitoreo inteligente y el sistema de operación y mantenimiento inteligente que detecta cuando ocurre y desecha cuando se descubre

——Du Yingjun, Taibao Technology, experto en operación y mantenimiento de automatización

El ppt se puede obtener en la cuenta pública de WeChat: comunidad de código abierto de Zabbix, ingrese ppt.

Por favor agregue una descripción de la imagen

01 Historia de la construcción de la plataforma de monitoreo CPIC

En la primera parte, presentaremos el proceso de construcción de nuestra plataforma de monitoreo CPIC. Podemos ver en la imagen que nuestro CPIC ha estado construyendo un sistema de monitoreo general desde 2008.

De 2008 a 2017 utilizamos básicamente este producto comercial de BMC. A partir de los 17 años es una alternativa a la exploración de productos comerciales. Desde 2018, se ha confirmado formalmente el plan para reemplazar el BMC con Zabbix. Después de una serie de demostraciones en el entorno de prueba, de 2018 a 2020, lo reemplazaremos gradualmente. En 2020, lo reemplazaremos por completo. Reemplazar todo el sistema de esta colección de índice de monitoreo con este producto de reemplazo de Zabbix, principalmente algunas funciones de BMC y Netcool. En esta etapa, nos estamos enfocando principalmente en la ubicación de alerta temprana de fallas y un escenario de análisis de solución de problemas inteligente.

Por favor agregue una descripción de la imagen

Cuando se trata de monitoreo, debe ser inseparable de algunas herramientas de operación y mantenimiento detrás de él.También presentaré el proceso de construcción de esta plataforma de herramientas dentro de CPIC. "Comenzamos a construir algunas cosas relacionadas con el sistema automatizado de operación y mantenimiento y monitoreo en 2014. Hemos pasado principalmente por cuatro etapas y todavía estamos en la tercera etapa. Básicamente, hemos realizado un escenario frontal y automatizado. Hay también la cuarta etapa. Creemos que el sistema inteligente de operación y mantenimiento debe ser un escenario de reparación de fallas basado en datos, y será cada vez más abundante. Ahora estamos comenzando gradualmente a intentar hacer estas cosas.

Por favor agregue una descripción de la imagen

La siguiente imagen es una introducción general de una plataforma de herramientas existente de CPIC. Las anteriores son algunas de nuestras plataformas funcionales, puedes ver que tenemos una gestión de nube privada, una plataforma de contenedores y una plataforma de operación y mantenimiento automatizado. La capa inferior son algunos de nuestros dispositivos de nivel S conectados, y la siguiente es información de configuración y algunas funciones relacionadas con la recopilación de datos. Es principalmente monitoreo y registro, así como nuestra CMDB. La capa intermedia es nuestra puerta de enlace de servicio. De hecho, también la abstraemos como una plataforma intermedia para las capacidades de operación y mantenimiento. En el nivel superior, incluiremos varios tipos de escenarios de aplicación relacionados con el monitoreo y la operación y el mantenimiento automatizados. También tenemos una serie de plataformas de código bajo, algunos sistemas de interfaz de usuario que se muestran en la pantalla grande.

2. Plataforma de monitorización integrada basada en Zabbix

Este es nuestro uso interno de Zabbix. El primero que también implementamos es una implementación distribuida en dos lugares y tres centros. La administración es probablemente 3 conjuntos de entornos para desarrollo, prueba y producción, con 60,000 nodos. Los indicadores de monitoreo que alcanzamos básicamente más de 2.200 en Internet. Más tarde, presentemos las mejores funciones de Zabbix.

Por favor agregue una descripción de la imagen

El primero es la definición del umbral, que principalmente usamos es una función del disparador.

La segunda plantilla de configuración, esto es para reducir en gran medida nuestra carga de trabajo de configuración general. La implementación distribuida también se introdujo anteriormente, y la administración unificada y el soporte de múltiples conjuntos de GPS en nuestros tres centros en dos lugares es relativamente comparativo. Bueno, la configuración de alarma , el uso de la definición de macro en Zabbix también se usa más internamente, principalmente hay información relacionada, que se puede distribuir directamente a través de Zabbix, y la capa superior también ha hecho algunos otros sistemas internos nuestros. Se proporcionan algunos paquetes de datos. , que se utilizan en combinación.

El tercero es el descubrimiento automático que hace cuando se trata de monitoreo. Este es definitivamente un punto ciego de monitoreo. También es un tema muy importante. Desde la introducción de Zabbix, ha sido muy útil para nuestro autodescubrimiento de monitoreo. El sistema de archivos principal y el puerto, su capacidad de descubrimiento, en realidad reduce la carga de trabajo para nuestros estudiantes de operación y mantenimiento.

La última pieza es la exportación de datos, que también es una dependencia importante para que implementemos el análisis de datos posterior. Esta es también la mayor ventaja de la cercanía de Zabbix que es diferente de los productos comerciales.

Por favor agregue una descripción de la imagen

Esta página presenta principalmente algunos problemas que encontramos durante la construcción de Zabbix.

El primero es un solo conjunto de Zabbix. Ahora, cada conjunto tiene básicamente alrededor de 2000 nodos, por lo que este también es el sistema Zabbix. Un solo conjunto solo puede administrar estas cosas, y si hay demasiadas gestiones, puede haber problemas de rendimiento.

La segunda es que es fácil pasar por alto el monitoreo de equipos de red y, a menudo, aparecen puntos ciegos en el monitoreo. De hecho, también combinamos algunos de nuestros propios procesos internos, incluidos los estantes de entrada y salida, y combinamos información completa de nuestra CMDB. Esto se basa principalmente en recursos para resolver algunas de las debilidades de Zabbix, la cobertura del índice y Acabo de mencionar las variables macro. La legibilidad de la configuración de los indicadores clave es relativamente pobre. Para nuestros estudiantes de operación y mantenimiento de línea real, esto puede no ser fácil de entender. Lo estamos haciendo gradualmente ahora, porque hay tantos indicadores que No hemos hecho todos los indicadores clave. Hicimos una traducción completa y establecimos algunas reglas para hacerlo.

La cuarta pieza es la gestión del ciclo de vida de los objetos de monitoreo, antes no implementábamos esta gestión del ciclo de vida, si algunos dispositivos se retiraban del estante, porque tenemos uno interno, el límite inferior es igual a mantener la operación temporalmente, pero en De hecho, esta máquina ya no se usa. Si se usa un sistema comercial, es fácil tener algunas falsas alarmas en este enlace. Ahora estamos combinando esto con nuestra CMDB, incluido el proceso general de uno de nuestros equipos. etapa, no lo haremos suprime automáticamente esta alarma.

El último Zabbix se basa en una base de datos relacional. Luego usamos principalmente el Zabbix mencionado anteriormente, que tiene la función de importar datos a archivos. Luego, primero los importamos a archivos y luego usamos FileBeat para recopilarlos en nuestro MongoDB. Lo llamamos una plataforma intermedia para datos de operación y mantenimiento, y todo nuestro análisis de seguimiento y agregación van desde este bus.

Por favor agregue una descripción de la imagen

La adaptación de Xinchuang de Zabbix también es un tema candente ahora.

El de la izquierda es el componente que administramos internamente con Zabbix. Hemos probado el nivel del sistema operativo Tongxin, Kirin y Hongqi. Hemos usado la base de datos para Tencent, Ali y Dameng. Estos son todos Es porque han realizado gestión dentro de CPIC.

El de la derecha es la adaptación de Zabbix.Hemos intentado implementar Zabbix en los sistemas operativos Tongxin y Kirin sin ningún problema. La base de datos principal, porque la base de datos actual de Xinchuang puede estar basada en esta versión de MySQL 5, y Zabbix en sí puede requerir 8.0, y es posible que tengamos muchas dudas. Luego vamos a ver las versiones TTC y MySQL de Tencent, pero aún no las hemos puesto en producción y uso por completo. Solo las ejecutamos en el entorno de prueba y pueden ejecutarse.

Por favor agregue una descripción de la imagen

Este es un diagrama esquemático de la plataforma de monitoreo general dentro de nuestro CPIC. También aprovecho esta oportunidad para compartir con ustedes.

Somos tres centros, y el entorno de nuestro centro de datos externo de Chengdu es relativamente complicado. De hecho, cubre Zabbix y pruebas, y una pequeña parte del sistema de producción también estará allí. Aquí están nuestros dos centros en Shanghái, uno está originalmente en Tianlin y el otro es el centro principal. Ahora estamos en Luojing, y el de Tianlin ha llegado a su fin.

Luego también establecimos una cooperación con Alibaba Cloud más tarde y establecimos un nuevo centro de datos. Nuestro sistema de monitoreo permanece básicamente sin cambios. La arquitectura de los tres centros se basa en varios de Zabbix, y luego hemos encapsulado un centro de gestión de eventos general. Me centraré en esto más adelante, y luego recopilaré los datos en forma de archivo en la cola de mensajes y luego los combinaré. ". Algunos motores de transmisión hacen una agregación de datos. El anterior es nuestro bus interno de datos de operación y mantenimiento, que en realidad es similar a una pequeña plataforma intermedia. Todos nuestros datos de monitoreo no solo provienen de Zabbix, sino también de algunos enlaces, monitoreo de carreteras y algunos se colocará monitoreo de hardware adicional en esta plataforma de autobús.

Luego, nuestro análisis posterior al evento se basa principalmente en un servicio de datos proporcionado por MongoDB. La otra pieza combinada con el registro está en ES, que no se ilustra en esta imagen.

Por favor agregue una descripción de la imagen

Esta pieza es principalmente para presentar la efectividad de Zabbix. Desde la perspectiva de reducción de costes, aumento de la eficiencia y empoderamiento.

La reducción de costos es obvia. De hecho, el fundador acaba de mencionar que Zabbix no estará limitado por la cantidad de uso, que es nuestra mayor ventaja.

La otra es la mejora de la eficiencia, el monitoreo de alarmas no válidas de puntos ciegos, que definitivamente es mejor que las plataformas de monitoreo anteriores. La puntualidad de Zabbix y la mejora en el BMC son bastante. Porque después de que nos subimos a Zabbix, los nodos administrados en el mismo período en realidad crecieron al doble de velocidad.

La última pieza, el empoderamiento es la apertura de datos, que creo que es la más importante. Porque el monitoreo en esta parte de los datos de operación y mantenimiento es en realidad una gran parte, porque si usa un producto comercial, algunos análisis posteriores convergerán y tendremos menos espacio para nuestro propio desarrollo.

3. Integre datos de monitoreo para crear una plataforma de monitoreo inteligente

La tercera parte combina estos datos de monitoreo y encapsula internamente algunos de los principales trabajos de investigación y desarrollo realizados dentro del alcance del monitoreo.

El primero es el gobierno de los datos de operación y mantenimiento. Lo dividimos en tres niveles internamente. La primera capa de datos original, luego algunos de nuestros registros de monitoreo automatizado existentes y la administración de la nube CMDB, escupen datos, incluido el monitoreo. En la recopilación de datos, son en realidad diferentes del enfoque tradicional del centro de datos. Todavía lo solicitamos a pedido, por lo que no lo clonaremos todo, y luego haremos un análisis estadístico real, porque los datos de operación y mantenimiento y los datos comerciales son en realidad Hay todavía una cantidad relativamente grande diferencia El 70%-80% de los datos comerciales son valiosos, pero la proporción de datos de operación y mantenimiento a esta proporción en realidad se invierte, por lo que la ventaja de nuestro enfoque es que los costos de hardware se pueden ahorrar relativamente, lo que también es útil para algunos de la actuación posterior.

La segunda capa es principalmente la capa de dimensión pública. Nuestro equipo construirá algunos organismos públicos abstractos, y el valor de la capa pública es el resultado del cálculo. También extraeremos algunos análisis de datos que necesitan varios equipos profesionales de operación y mantenimiento. Lo calculamos, por ejemplo, es similar al valor promedio, o algunos datos. Además, combinamos los datos con nuestro análisis de integridad y lo ponemos en esta capa para establecer un sistema de gestión global.

Por favor agregue una descripción de la imagen

También hay un ciclo de vida, que creo que es muy importante, porque pasamos por algunos desvíos antes e hicimos el modelo del recipiente de datos, pero descubrimos que el volumen es cada vez más grande. Es más difícil. Después de muchos iteraciones de versiones, finalmente se decidió ponerlo en MongoDB. Este es realmente un problema resuelto, incluido el ciclo de vida. Es relativamente fácil de administrar. Si no lo desea, debe hacerlo lo antes posible. Suprímelo, para que quede adelgazante para la plataforma, no demasiado voluminoso.

Análisis, toma de decisiones y predicción, esta parte es relativamente abierta, la construiremos junto con equipos profesionales, parte es que la usan para hacer directamente algunos escenarios pequeños de operación y mantenimiento, y la otra parte, análisis y decisión relativamente grandes. -Hacer alertas tempranas y predicciones es nuestra. El equipo de I + D de herramientas de operación y mantenimiento en general debe lograrlo.

Por favor agregue una descripción de la imagen

El segundo bloque es una plataforma general de despacho y policía de alto nivel basada en Zabbix. Anteriormente, tal como también dijo el fundador, Zabbix es una herramienta para procesar indicadores. Basado en esta herramienta, reemplazaremos BMC con alarmas y pedidos en 2020. Tiene un módulo completo de procesamiento de eventos de alarma. De hecho, fue se reemplazó por completo en la primera mitad de este año, y todavía se usó todo el tiempo, porque Zabbix no tiene esta pieza.

Estamos atrasados ​​porque el envío de pedidos es bastante complicado en nuestro sistema Taibao. El diagrama de nuestras reglas de convergencia y las reglas de envío de pedidos es en realidad inferior a 1/10. Esta es solo la configuración interceptada. Es un diagrama de flujo, pero aún no está terminado. , junto a él hay un efecto general, basado en nuestra plataforma inteligente de convergencia de alarmas, en general, nuestra tasa de convergencia puede alcanzar el 40% y las alarmas no válidas se reducen considerablemente. Este boca a boca sigue siendo muy bueno, y toda nuestra plataforma también es de desarrollo propio.Esta ventaja es que puede adaptarse a nuestro interior, que es relativamente personalizado y complicado.

Por favor agregue una descripción de la imagen

La segunda es la línea de máquinas de alerta temprana. De hecho, todavía la implementamos en función de algunos algoritmos basados ​​en reglas. De hecho, también intentamos introducir algunos algoritmos inteligentes relacionados con la IA en 2018. En ese momento, el efecto no fue muy bueno. ¿Qué pasa con los últimos años?, la idea de todos de usar IA en la escena de operación y mantenimiento también debería volver a la racionalidad. Luego, finalmente profundizamos y refinamos esto en la primera mitad de este año. La imagen de arriba, yo creo que es Es mejor para el seguimiento.

La Ley del Mar es nuestra plataforma de monitoreo tradicional. Básicamente, 1 y 29 en esta imagen serán monitoreados, y al menos se activará la alarma. Entonces definitivamente no llamaremos a la policía en los siguientes 300 y 1,000, porque la cantidad es demasiado grande y en realidad hay muy pocas situaciones que realmente necesitan ser tratadas, por lo que combinamos esta alerta temprana, y también tenemos una función de diagnóstico posterior, es decir, también haremos algún procesamiento para las 1,000 y 300 cosas , e intervenir por adelantado, luego otros Para el monitoreo, nuestro mayor desafío ahora es: podemos encontrar problemas, pero el tiempo que queda para que la operación y el mantenimiento se ocupen de ellos en realidad no es suficiente. Entonces todavía no hay manera de realmente tratar con él antes de que el negocio se vea afectado De hecho, esta pieza se puede dejar gradualmente a nuestros estudiantes intermedios de operación y mantenimiento para que la traten después de que se use.

Por favor agregue una descripción de la imagen

Esta es una relación de topología de aplicación que reconstruimos internamente y este año. CMDB se lanzó en 2015 y 2016, pero comenzamos a planificar este dato a fines del año pasado. Al revisar este plan de gobierno de datos, encontramos que esta topología es básicamente Lo anterior no está disponible en absoluto, pero para nuestro análisis de fallas de la aplicación, esta topología es realmente crucial.Desde mi punto de vista, desde el desarrollo de las herramientas de operación y mantenimiento hasta la etapa actual, la CMDB construida sea buena o no, en realidad depende de la integridad de esta imagen, si puede ejercer su valor real, además de reemplazar esto, el valor registrado en este formulario, creo que esta relación es muy importante, de todos modos, se basa en nuestra posterior Una base importante para la alerta temprana y el diagnóstico en su conjunto.

Por favor agregue una descripción de la imagen

El quinto paso es en realidad sentar las bases para esto. El indicador de oro comercial anterior, tres círculos, esta es una entrada de nuestra alerta temprana básica, es decir, el que está arriba de la regla de Hayne frente a mí. Las dos capas inferiores de En la imagen, después de que lo descubramos, no nos ocuparemos de la alarma de inmediato, sino que pasaremos por el motor de proceso para echar un vistazo, configuración, también se puede decir que es un proceso de solución de problemas, pero todo esto se basa en la experiencia. y configurado manualmente. El último horizontal es un sistema de enlace completo para el dibujo de enlaces, que puede recopilar una relación entre aplicaciones. Combinaremos estas piezas y echaremos un vistazo, y si realmente hay un problema, solo entonces se emitirá la alarma real. En En este caso, es decir que hemos intervenido de antemano. El proceso de bloque es un nativo y un motor de un proceso de trabajo basado en una plataforma de automatización. Se utiliza para el monitoreo. Personalmente creo que su rendimiento seguirá siendo un poco desafiante. Se puede usar cuando la escala es pequeña, y definitivamente se usará en el futuro. Se volverá cada vez más difícil, por lo que presentaremos algunos conceptos relacionados con la IA o más avanzados para hacer esto más adelante.

4. Un sistema inteligente de operación y mantenimiento que descubre cuándo ocurre y lo desecha cuando se descubre

Esta imagen es el sistema inteligente general de monitoreo de operación y mantenimiento planeado por nosotros en el futuro. En el extremo izquierdo, desde los datos generales hasta la observación y el análisis, en la capa de análisis, se encapsularán varias escenas relacionadas con la operación y el mantenimiento. En el En el extremo izquierdo, también vemos varias cosas. Una es que podemos hacer operación y mantenimiento. También usaremos esta plataforma de análisis similar a BI a nuestro equipo profesional para reducir los costos de desarrollo y desarrollar este umbral inteligente. , Todos nuestros estudiantes en operación. y el mantenimiento se puede introducir en un ecosistema construido por esta herramienta, esta pieza está en el nivel de análisis, y en realidad pertenece a un modelo de co-construcción y co-creación.

Por favor agregue una descripción de la imagen

Finalmente, basado en datos, promover esto es monitorear y movilizar nuestra plataforma de automatización, que puede hacer algunos escenarios de recuperación de fallas relativamente complicados, porque ahora estamos curando el reinicio más simple, incluida la limpieza de archivos, todo lo cual está relacionado con el enlace de monitoreo, nosotros se ocupará de él si lo encontramos. Si es más, puede ser más avanzado o: por ejemplo, la dificultad de manejo y los factores de juicio son más complicados. No lo hemos activado automáticamente. Ahora esto, seguro que lo es. se basa en nuestro proceso anterior de resolución de problemas y precisión. Una vez que la resolución de problemas se vuelve cada vez más precisa, podemos agregar gradualmente una acción de recuperación automática.

Por favor agregue una descripción de la imagen

El equipo del que estoy a cargo hará algunos trabajos preparatorios. El primero es el análisis de fallas que hacemos bajo el nuevo K8S, que usa el sistema de contenedor. Ahora es punto a punto con nosotros, este nivel de IP. Todavía hay algunas diferencias en el análisis de fallas.

La segunda parte es que combinaremos la integración del tiempo de finalización digital y los datos de monitoreo para realizar una inspección de patrulla con un fuerte sentido de experiencia en línea y un sistema de monitoreo visual.

La tercera es que continuamos introduciendo las bendiciones del algoritmo de IA. La predicción y la resolución de problemas que acabo de mencionar, y la última es la ingeniería híbrida. Analizaremos algunos escenarios y los pondremos en un escenario que se pueda simular. La energía dependiente de este tema O nuestros datos de monitoreo deben ser los datos más grandes.

Por favor agregue una descripción de la imagen

   最后讲讲愿景,因为我个人比较喜欢摄影,这两张图,就是也是我全部是自己拍的,这个我是从2011年进太保的啊,就这张图是就等于是我们上Zabbix之前啊,吃饭吃到一半拉去干活了,后面一张呢,就是等于我们上了这个工具平台来维持、越来越完善之后,那我们这个就意境就不一样了,那我个人也是成功的从一个一线干活的,发展到一个看着别人干活的,那也是归功于我们Zabbix功不可没,对于我个人以及我们系统的公司系统运维平台的一个建设都起到了至关重要的作用。

Por favor agregue una descripción de la imagen

Supongo que te gusta

Origin blog.csdn.net/Zabbix_China/article/details/129294692
Recomendado
Clasificación