¿Cómo integrar la "inspección inteligente" en el "sistema empresarial"?

Introducción: Con el potente sistema de mensajes SLS "Alarm 2.0", la inspección inteligente puede unir muchos sistemas internos y externos (EventBridge, FC, etc.) El siguiente paso "Tarea de análisis" de "Resultados", para realizar mejor la solución de problemas y solución del problema.

Arquitectura del producto

La aplicación de análisis de excepción inteligente se desarrolla en torno a elementos centrales como indicadores de monitoreo, registros de programas y relaciones de servicio en escenarios de operación y mantenimiento. Genera eventos anormales a través del aprendizaje automático y otros medios, y analiza datos y eventos de series temporales a través de la correlación de topología de servicio, en última instancia, reduciendo la complejidad de la operación y el mantenimiento de la empresa. , mejorar la calidad del servicio. El diagrama de la arquitectura del producto se muestra a continuación.

Descripción de la habilidad:

  • Una sola tarea admite la detección de anomalías unidimensionales y multidimensionales de objetos de observación de 3K a 5K
  • Para los resultados de detección de la tarea, cuantificamos la puntuación anormal y la forma anormal, lo cual es conveniente para el procesamiento posterior.
  • Para puntos anormales con una puntuación de más de 0,75, enviaremos la información relevante (gráfico visualizado) a su sistema DingTalk a través de Alert 2.0
  • Para todos los resultados de detección, escribiremos la información de detección en el interno-ml-log actual para que realice la integración posterior a través del SDK
  • Al mismo tiempo, en la página de tareas de nuestra aplicación, admitimos la función "Comentarios de anotaciones", puede realizar anotaciones relevantes en los resultados de detección para mejorar la precisión de aprendizaje del modelo.

Luego, echemos un vistazo a cómo integrar mejor la capacidad de "inspección" en su sistema empresarial.

Integración de capacidades

Con la ayuda del potente sistema de mensajes SLS "Alarm 2.0", la inspección inteligente puede unir muchos sistemas internos y externos (EventBridge, FC, etc.), y también puede usar el SDK de SLS y funciones personalizadas para resolver el problema de "alarma". resultados" El siguiente paso de la "Tarea de análisis", para realizar mejor la solución de problemas y la resolución del problema.

creación de tareas

Aquí tomamos el escenario de monitoreo propio de SLS como ejemplo para ver cómo se puede usar mejor la herramienta. Queremos aclarar el problema del siguiente escenario: en LogStore, al desensamblar el registro de acceso, podemos obtener la siguiente información estructurada (ver la figura a continuación). Los escenarios comerciales reales de muchos clientes son similares. El comportamiento de acceso de los clientes se registra en el registro de acceso. Al inspeccionar los indicadores dorados del negocio actual, podemos conocer bien las capacidades de servicio de cada interfaz API en el servicio actual.

De acuerdo con la estructura anterior, definimos los indicadores dorados actuales que deben inspeccionarse:

  • El número de respuestas exitosas por minuto para cada interfaz de servicio de un clúster

  • 某集群各服务接口每分钟失败响应的次数

  • 某集群各服务接口每分钟成功平均响应延时

  • 某集群各服务接口每分钟失败平均响应延时

    • | SELECT time - time % 60 AS time, method, Count(*) AS total, Count_if(status=200) AS n_succ, Sum( CASE WHEN status=200 THEN latency ELSE 0 END) / (1 + Count_if(status=200)) AS avg_succ_latency, Sum( CASE WHEN status!=200 THEN latency ELSE 0 END) / (1 + Count_if(status!=200)) AS avg_fail_latency FROM log GROUP BY time, method limit 100000

当然,我们还有另外一个形式的黄金指标,用来进行后续的监控,我们可以仅关注请求失败的接口中的数量的变化,具体的SQL如下

not STATUS: 200 |SELECT   __time__ - __time__ % 60 AS time,
         method,
         status,
         Count(*) AS num
FROM     log
GROUP BY time,
         method,
         status limit 100000

我们【智能异常检测】App中完成作业的配置。入口地址 sls.console.aliyun.com/lognext/pro…

结果说明

通过上述配置,我们得到了一个【智能时序巡检】任务,我们根据下面的结果,介绍下截图中各部分的含义:

  • 【巡检实体数量】:当前任务中一共包含了多少个观测对象
  • 【巡检指标数量】:当前任务中每个观测对象的观测维度
  • 【实体信息列表】:当前任务中全部参与巡检的观测对象,且给每个对象提供一个唯一编码
  • 【异常事件列表】:当前选中的实体,在给定的时间窗口中,给定的过滤条件下的异常分数和异常类型

上述截图中的可视化信息均来自对应的Project下面的LogStore【internal-ml-log】中,关于这个logstore中存储的数据的详细说明,可以参考我们的官网文档。help.aliyun.com/document_de…

告警使用

您可以通过在【巡检任务】创建的最后一步中,配置多种消息发送逻辑

  • 钉钉-自定义
  • 事件总线(EventBridge)
  • 函数计算(FC)

通过SDK/钉钉发送消息

这里面的详细配置逻辑以及解释不在赘述,更多信息可以参考这个链接:developer.aliyun.com/article/851… 里面较为详细的介绍了在告警中您可以使用那些字段进行后续的操作和判别。当巡检任务发现一个异常时,会将具体的信息按照如下的模版推送到钉钉的webhook地址。

函数计算(FC)

关于配置函数计算去进行后续操作的部分细节可以参考 help.aliyun.com/practice_de…

这里我们简单的说在下一步的分析思路:

参考资料

原文链接:click.aliyun.com/m/100034811…

本文为阿里云原创内容,未经允许不得转载。

Supongo que te gusta

Origin juejin.im/post/7117188252787802120
Recomendado
Clasificación