程序运维对接要素

一、配置

1、对接文档

  • 1)程序同学和运维同学对接的时候,不要想当然的认为运维都会做好的,口头上说的是很容易忘记的,一定要有对接文档,并且详细写清楚;
  • 2)有对接文档以后,无论是平时遇到问题的处理、运维对接人的更替都是有好处的;
  • 推荐:腾讯共享文档

2、反复提醒确认

  • 1)和运维对接的时候也发现,他们会照着我们给的做,至于内部实现,他们很少会关心,而且也没办法关心,毕竟是黑盒,对于程序来说不要过度依赖于运维,你才是主角;
  • 2)有时候要把事情给他们说清楚,说了四五遍,最后可能还是记不住,所以最好的办法就是文档整理出来放在那里,并且反复提醒确认;

3、让运维弄清原理

*1)就像我们学习东西一样,有些东西弄清楚原理可能一辈子都不会忘记,但是如果只是死记硬背,可能几天就忘了;

  • 2)所以不要偷懒,原理能说清楚也可以花点时间和他们说说;

4、配置的双重确认

  • 1)配置文件配好了,为了保险,实际实现人都上外网的机器看下配置(服务器程序一般都会给权限,不给权限的话,服务器主程序一定要确认好),有没有按照你预想的来,确保万无一失;

5、防止误操作

  • 1)为了防止程序上外网环境看日志时造成的突然关闭服务器的情况,尽量让运维能够提供下载日志的 ftp;
  • 2)Windows 下的服务器,登陆时候不要登陆到有程序的会话上去;

6、时间节点控制

1)交付最终包的时间

  • 1)项目组把控好给运维同学最终发布包的时间,如果要到半夜,确定好一定在XX时间以后,让运维休息够,运维可以定好闹钟,叫不醒的话电话、微信、QQ、钉钉一起上;

2)更新维护的时间

  • 运维更新维护的时间一般是确定的,不确定因素有以下两个:
  • i)配置对接的时候没有交接清楚,导致配置出错;
  • ii)内网出现没有测试完全的点,外网更新完毕后发现问题;

第 i 种情况,还是要按照规范,把配置都和运维交代清楚;
第 ii 种情况,负责维护的人需要全局把控时间节点,将所有的问题都列出来,并且要有能力判断优先级,哪些问题必须解决,哪些问题可以开服后解决;一般如果是无状态的服务器,修改后可以随时重启的, 并且影响返回较小的,可以不占用开服时间,开服后继续解决;

二、监控

1、先发制人

  • 1)在玩家之前发现问题的最好办法,就是运用运维的监控;

2、如何实施

  • 1)程序这边负责写日志,运维监控日志关键字,如果出现严重问题的关键字打电话、告警、微信、钉钉等等;
  • 2)如果次要问题的关键字出现,省掉打电话这一步;

3、监控对接文档

  • 程序这边负责把自己做到的功能需要监控的,都填在共享文档里 监控整理

三、关键字总结

共享文档
实现原理
提醒确认
二次检查
时间管理
监控告警

猜你喜欢

转载自blog.csdn.net/WhereIsHeroFrom/article/details/109020576