华为立体运维-第一课(AOM服务介绍与监控特性详解)

应用运维管理(Application Operations Management缩写AOM)是以云上应用为中心的运维平台,为企业提供一站式立体运维平台,实时监控移动端 APP,Browser,网络,应用服务,中间件及云资源全链路的数百种运维指标,通过运维知识库和AIOps引擎快速发现并诊断一场,提高IT应用的可靠性和质量,保证用户的良好服务,降低IT总拥有成本(TCO)

1 采集管理:管理AOM中负责监控数据收集的采集器的生命周期,功能包括采集器安装,升级,卸载,采集参数配置等
2 主机监控:向用户展示主机核心指标如CPU,内存,网络,磁盘,文件系统等。同时展示主机上的应用实例状态及性能指标,支持用户自定义视图模版。

3 应用监控:AOM关键特性之一,向用户展示应用的黄金指标(请求,延时,错误率),支持用户以业务为中心对微服务或进城重新划分应用,将应用相关的资源以拓扑图的形式展示给用户,如应用下所有的服务,主机,事务,请求分布等。应用监控同时包含应用下的服务监控,服务发现,配额设置等。

4 容器监控:面向云上容器应用架构的监控功能,提供以k8s模型为监控视角的监控页面,支持工作负载监控,POD管理,docker监控,集群负载监控等,同时提供工作负责的资源拓扑图形,向用户展示工作负责相关的实例及主机性能数据。 

5 中间件监控:提供数据中间件的监控功能,包括关系型数据库如MYSQL,消息中间件如Kafka,ELB,nosql缓存如redis等中间件活着云服务的监控。展示资源详情及相关性能数据,支持快速条栈道不同云服务资源的控制台。

6 视图管理:提供多种形式的仪表盘,供用户自定义日常运维所需的各种监控图标,支持导出自定义仪表盘的监控数据到CSV文件,支持修改仪表盘中数据的查询时间段和指标的采集周期,支持启动秒级监控。同时提供全量指标的查看功能,支持用户选择任意指标进行数据对比和故障排查。

7 告警中心:包括告警列表,事件列表,阈值规则,通知规则,告警订阅五大类功能,实时展示系统中当前所有的故障告警及关键事件,支持多维度查询过滤。同时提供单条阈值,批量阈值,默认阈值等多种阈值配置方式,从告警声称规则到告警展示及订阅转发管理,全流程管理告警生命周期。

8 日志管理:提供主机和应用的日志收集,查看,下载,关键字搜索,分词匹配,采集路径配置,日志转储等功能。全方位分析日志,实时抓取日志异常信息并产生告警,助力用户快速分析和定位问题。
采集器是AOM中最关键的组件之一,只有部署了采集器以后,主机的性能及主机上应用的性能才能被监控,相关的日志和调用链等数据才能被收集。因此主机上是否部署了采集器,可以通过Agent列表可以查看,上述界面包含了当前所有的采集器的状态及版本,管理采集器生命周期,安装,升级,卸载等。

采集器当前部署形式为每VM上部署一个,因此采集器列表界面以集群来筛选不同的主机,从而查看主机上对应的采集器信息。在k8s集群下所有主机统一安装和卸载采集器。在非k8s集群下,支持用户单独向VM上部署采集器,同时支持批量部署

猜你喜欢

转载自blog.csdn.net/xsjzdrxsjzdr/article/details/84672470