1、监控原则
- 监控是基础设施,目的是为了解决问题,不要只朝着大而全去做,尤其是不必要的指标采集,浪费人力和存储资源(To B商业产品例外)。
- 需要处理的告警才发出来,发出来的告警必须得到处理。
- 简单的架构就是最好的架构,业务系统都挂了,监控也不能挂。Google Sre 里面也说避免使用Magic 系统,例如机器学习报警阈值、自动修复之类。这一点见仁见智吧,感觉很多公司都在搞智能 AI 运维。
2、Zabbix有哪些组件
- Zabbix Server:负责接收agent发送的报告信息的核心组件,所有配置、统计数据及操作数据均由其组织进行
- Database Storage:专用于存储所有配置信息,以及有zabbix收集的数据
- Web interface(frontend):zabbix的GUI接口,通常与server运行在同一台机器上
- Proxy:可选组件,常用于分布式监控环境中,代理Server收集部分被监控数据并统一发往Server端
- Agent:部署在被监控主机上,负责收集本地数据并发往Server端或者Proxy端
3、Zabbix的两种监控模式
Zabbix agent检测分为两种模式:主动模式和被动模式
被动模式,也是默认的Zabbix监控模式,被动模式是相对于proxy来说的。proxy主动发送数据就是主动模式,proxy等待server的请求再发送数据就是被动模式。
使用zabbix主动模式的好处:可以监控不可达的远程设备;监控本地网络不稳定区域;当监控项