朋友要求的运维建议

一,多参考查看网上文档或其它同行经验,不断完善公司IT运维体系。

二,根据公司具体的发展阶段和技术人员配比,剪裁规范,贴合公司实情。

三, IT运维规范定好之后,一定要严格执行。不能执行的规范=无规范。

四,运维着眼于三大块内容:静态资源管理,动态流程管理,系统安全透明调优。

五,静态资源要区分自购设备及云主机,网络服务。

六,流程涉及上架,故障,下架,巡检,续费,软件及应用更新,应急,知识库一系统流程。

七,IT运维也涉及系统安全管理,系统及应用的监控报警,优化系统各项指标。

八,IT运维系统,由一系列的开源或商业软件支撑。可分散管理,或二次开发进行统一管理。暂时没有建立IT管理系统的,纸质工单替代。

九,公司的IT运维体系,必须和研发,测试,产品,项目,运营等岗位联动。

十,运维和研发,测试尽管往DevOps流程上靠,形成CI/CD工作流。

十一,在源代码管理,编译,测试,需求管理上,引入Git,Jenkins,Jira等业界最佳实践。

十二,在应用软件发布上,建议逐渐引入docker,k8s。配置管理,分布式应用都应完善。

十三,服务器安全方面,留心重要漏洞补丁升级,防火墙只开放必要协议及端口,非root帐号,ssh证书登陆。进行源IP限制。

十四,在服务器集中管理环节,引入salt stack或ansible。

十五,在服务器监控报警环节,前期可用zabbix满足, 大屏展示,grafana即可。

十六,在服务器及应用日志收集分析环节,ELK套装,或是filebeat,kafka均可引入方案中。

十七,重要数据,备份,备份,再备份。指定保留份数,并滚动更新。

十八,灾难恢复方案,不同级别的灾难,指定不同的恢复时间和损失可能性,这几个方面的细节,必须形成文档,一年至少两次演练。(因为灾备涉及更新ip或域名,需要研发在开发时,注意配置的灵活性。)

猜你喜欢

转载自www.cnblogs.com/aguncn/p/9746974.html