思想:

CMDB

CMDB在这里更多是偏向IT设备管理,因为这样可以更快地完成。  配置管理放在了自动运维模块中。

这里的CMDB主要是将整个IT部门的硬件资源,已有系统,服务包括供应商做一个管理,为以后的监控和自动化运维等提供基础数据。该平台CMDB的建设思路主要是以产品线和项目为导向。

一、产品线和项目

首先确定整个公司的 IT 产品线。 站在公司的角度进行划分。 结合公司的主要部门,和大产品群进行划分。 产品线划分好之后,接下来就是 梳理公司所有的项目。  将每一个项目,按照所属的产品进行分类。

如: B2B电商的例子,涉及到的有买卖家管理系统、订单系统、支付系统、物流系统、对账系统等。

可以大概分为:

1.销售产品线:买卖家管理、订单管理;

2.财务产品线:支付系统、对账系统;物流产品线:物流系统、第三方物流接口等。

二、IT资产管理

经过产品线划分和项目归类之后。可清晰的看到公司所有的IT系统。 接下来梳理每个项目中所涉及到的服务器或者是虚拟机。

然后还需要从另一个维度去梳理: 每一台服务器或是虚拟机上部署的项目,服务(数据库,Tomcat,web等) 经过这一步,

明确每一个项目涉及哪些服务器或虚拟机,每一台服务器或虚拟机又关联哪些个项目,部署了哪些服务等等。

虚拟机 在那些宿主机,宿主机又分布在哪些物理机上,而这些物理机又部署在那个机房的那个机柜以及具体的编号;

网络连接是怎样,上行和下行分别是什么。都进行数量和完善,这样从硬件层面去关注每一个系统的硬件关联。 如果硬件和网络出现任何问题,可快速的且清楚的知道涉及到的系统和影响度。

三、供应商管理

每一个公司的IT设备或是系统基本都会有供应商公司的参与。集中统一管理这些供应商的信息,可以在系统出现问题的时候紧急联系供应商,进行协助解决。

生产数据库

生产数据库作为基础数据的重要一环,为业务数据监控提供主要途径。我们在监控模块中有一个业务监控,主要依赖业务数据库中的数据,根据业务逻辑进行数据比对,判断业务的实时性和准确性。

一般在监控和备份的时候,数据库都会作为单独的一个主题进行(因为太重要)。在基础数据模块,将所有的生产数据库信息进行集中采集,可以很方便地为以后的数据库监控和备份等运维工作提供操作对象参考,以免遗漏。

生产数据库一般按照数据库的类型(MySQL、Oracle、SQL Server等)进行分类管理。数据库的名称一般即业务系统的名称,简单标识,见名知意。

日志数据

日志数据是IT系统的重要数据之一,可以很好地反映系统的运行状况,系统出现问题的时候,可以通过反查日志进行查因、排故。

一、系统日志

系统日志主要包括操作系统级别的日志, 包括物理机、宿主机、虚拟机等部署又操作系统的系统日志。 主要关注:

  1.系统操作日志可以看到什么用户什么时间登录了哪台操作系统,做了什么操作等;

  2.安全日志可以判断系统是否已遭受或是正在遭受攻击,是否有过危险操作等;

  3.定时任务日志可以看到部署在系统中的定时任务是否按时准确地执行完成。

系统日志主要反映系统级别的运行情况,一定要做好备份和分析的工作。

二、应用日志

应用日志 一般分服务日志和业务操作日志。

1.应用服务日志指如Nginx运行时候产生的日志等,通过其可以看到应用服务运行的健康情况;

2.业务操作日志主要是业务系统将部分业务操作或是业务错误写到日志中,可能单独一个日志文件也可能集成到应用服务日志中。

业务操作日志是进行业务审计,业务监控的重要数据源。

三、数据库日志

数据库中的数据往往是企业的核心资产。数据库日志反映着数据库的每一步每一个事务的操作,以及数据库运行的监控状况,进行日志监控和分析时,数据库日志是不可缺少的。

四、设备日志

设备日志可直观的反应设备的运行状况,以及设备出现问题的时,可通过日志快速找到原因。

如 交换机日志、防火墙日志。 通过防火墙日志可以看出系统是否遭受攻击,交换机日志可以看到网络流量是否呈现陡增陡降等突发状况。

实时监控和管理设备日志是日志管理的重要工作之一。

知识库

在基础数据中,我们单独设立知识库这样一个模块,主要包含事件库、问题库、经典案例库、解决方案库等。

事件库主要是在运维工作中遇到的一些运维事件或是事故,在事件库中详细记录事件的原因和处理过程。如果涉及到需求变更或是需要修改系统进行解决的,此时由事件库进入到问题库。

问题库涉及到问题解决流程,问题解决的过程中,可能涉及到应用变更发布等。通过问题库的统计可以侧面反馈系统的状况。

经典案例库记录了解决经典问题的方式和方法。例如记录了防火墙故障,交换机故障时如何从查找原因到排故到解决的过程,以供解决类似故障处理参考。

解决方案库主要存放一些经典的解决方案。如Nginx+uwsgi+Redis的部署方案、MySQL的HA、Oracle的RAC等等解决方案。以便在构建新的系统的时候可以快速地选择解决方案。

猜你喜欢

转载自www.cnblogs.com/chengege/p/11067561.html