B. 智能运维 --- 质量保障 --- 根因分析

B. 智能运维 --- 质量保障 --- 根因分析
	机器学习定位故障责任部门 --- 微软 NetPoirot
		特点
			轻量级的持续监控:仅需收集TCP的数据,避免收集整个系统海量的日志(SNMP,网络拓扑,性能指标,程序日志等)。
			准确的机器学习分类:利用决策树/随机森林来实现自动且准确的根因分类。
			简单的系统实现:不需要了解系统方面的信息,包括网络拓扑,程序模块关系等。
		解决方案
			训练阶段:由于异常的数据远远比正常的时候少,不利于机器学习,NetPoirot还可以模拟注入一些故障,丰富异常数据集,提升模型的准确度
			运行阶段
		模拟注入故障类型
			Server
				High CPU load on Server
				Slow reading Server
				High I/O on Server
				High memory load on server
			Client
				High CPU load on client
				High I/O on client
				High memory load on client
			Network
				Bandwidth throttling
				Sporadic packetdrops
				Packet reordering
				Random connections drops
				High Latency
	微软AIOps工作:时序数据与事件的关联分析
		解决核心问题
			E和S之间是否存在相关关系?
			若存在相关关系,E和S的时间先后顺序是什么?E先发生,还是S先发生?
			E和S的单调关系。假设S(或者E)先发生,S的增加还是降低导致的E发生?
		具体实现
			相关性:???
			时间先后顺序
			单调关系
	美团的日志聚类,实现根因分析

猜你喜欢

转载自blog.csdn.net/micklongen/article/details/89437275