基于日志的网络故障预测和发现

日志处理分析厂商SPLUNK

  • Splunk的成功因素
  • 进入市场早,创办于03年(ELK开源项目开始于09年)
  • 核心能力是对海量数据的实时采集、存储、搜索、可视化,并且可以通过可插拔APP对特定领域分析
  • 实时通用处理全量日志等文本信息,简单的相关性已可解决大量领域问题,对企业内部一些专用系统造成冲击,而SAP、Oracle、IBM等已有很多专门系统(如安全审计软件)的大型企业不会快速将自己的领域知识转成做splunk这样的平台
  • 近年来推出一系列对特定领域分析的APP,在SIEM领域尤其突出,魔力象限排名第一
  • 与cisco、亚马逊AWS、戴尔EMC等开展深度合作,合作APP生态完善

CiscoSplunk的深度合作

  • 8年多的客户,4年多的战略伙伴
  • 不同地区的数据收集和分析
  • 整个公司超过70个业务应用/使用案例
  • 约20个团队使用Splunk,包括思科IT和CSIRT部门
  • 2014-2016年搜索量增长近10倍
  • 来自cisco开发、splunk开发或第三方开发共49个APP和add-on

 

思科Cisco Log Intelligence Platform(CLIP)

  • 根据CLIP架构师的Linkedin主页,CLIP是思科内部最近开发的一个日志分析平台,底层通过定制其他开源项目实现
  • 为思科企业开发了一个基于云的思科日志智能平台(CLIP),作为SPLUNK的替代品。
  • CLIP基于ELK(Elastic search,Logstash,Kibana)和Graylog2。 开源是定制的,并增加了新的功能,以适应相关用例
  • 企业管理解决方案,整理,索引和处理大量机器生成的数据,帮助企业获得有价值的运营智能。主要是思科的IT部门包括全球架构和技术服务、全球基础设施服务、思科商务,企业数据服务,客户关怀和客户战略与成功等在使用

华为日志分析平台

  • 以下总结信息来源包括多篇HUAWEI文献以及其他相关文献
  • 自2016年起,华为技术有限公司一直使用叫做FLAP的日志分析平台进行内部事件日志分析,为系统运行和工作流优化提供了有效的支持,主要功能如下:
  • 事件提取
  • 从非结构化数据中提取出事件
  • 多粒度日志查询
  • 时间粒度:关心某个时间段
  • 空间粒度:关心某些设备或应用
  • 事件总结
  • 总结事件间的发生关系
  • 故障检测
  • 统计学方法尽早地检测到是否已经有故障发生
  • 故障诊断
  • 统计学方法分析故障产生的原因
  • 故障预测
  • 统计学方法预测下一时段是否会发生故障

基于syslog数据的故障检测、诊断与预测
 

  • 数据基础
  • 交换机、路由器等网络设备的syslog
  • 收集拓扑
  • 无要求,单点设备收集反映单点问题,多相关设备收集反映设备间的问题触发关系
  • 传统方法情况
  • 查看或监控Severity Codes,对于高级别Severity进行原因分析和事后处理,难以主动预测问题和快速发现根本原因
  • 针对一些具体的基本网络问题(如端口震荡、协议震荡)识别日志内容
  • 忽略了日志之间的时间和空间关联性等大量细节,一般只能处理点状问题,难以有全局视角,跨设备线状或块状问题需要丰富的网络经验
  • 课题主要目标
  • 事件提取
  • 事件总结
  • 故障检测
  • 故障诊断
  • 故障预测

由事件总结产生的事件关系网络

故障检测效果

故障诊断效果
 

  • 数据源:从日本研究和教育网络获取的一系列骨干网络日志。全国网络由8台核心路由器,60台边缘路由器和100多家厂商组成的二层交换机组成。将数据分成8个子集,分别对应一个核心路由器的子网络,连接到核心路由器的边缘路由器和交换机。15个月连续35513125条日志
  • 因果关系推断算法推断问题出现的原因

故障预测

  • 预测的任务是使用过去1小时内可用的事件日志来确定下一小时是否存在系统故障。 为了建立预测模型,将历史日志分割成多个滑动窗口的事件序列,其中每个事件块具有10分钟的时间范围。 然后将分段序列划分为训练集和验证集。

 

猜你喜欢

转载自blog.csdn.net/b0207191/article/details/87998573