运维常见问题及排查思路

防患未然

备份

  1. 做任何修改之前一定要备份,方便出问题进行回滚。
  2. 数据库备份,安装程序备份,条件允许最好异地备份。

权限

  1. 需要登录服务器的人,分配可以完成工作的最小权限。
  2. 敏感操作要进行逐级确认之后进行操作。

对症下药

重启大法

  1. 重启应用程序
  2. 重启服务器
  3. 重启数据库服务

查看日志

  1. 检索日志
grep keyValue foo.log
  1. 查看实时打印的日志
tail -f foo.log

系统指标

  1. 硬盘容量(比如日志文件耗尽了硬盘容量)
df -h
  1. 内存使用率(程序出现内存泄漏导致内存溢出)
free 
  1. CPU使用率(死循环耗尽CPU资源)
top

推荐使用gotop插件,可以从终端直观的、实施的查看CPU、内存、磁盘等指标。

数据库

  1. 与应用分开部署时,需要确定网络是否连通
ping dataBaseServerIP
  1. Oracle表空间不足,扩大表空间
  2. Oracle监听服务死掉,重启监听服务
  3. Oracle安装目录磁盘空间不足,扩容或删除备份文件

网络

  1. 服务器防火墙未设置永久关闭,应用程序安装之后,发生服务器宕机,重启后防火墙默认开启,导致应用无法访问。
  2. 网管平台对防火墙配置了新的规则而未接到通知,尤其涉及到内外网通信,如果发生诡异问题,要优先考虑下网络原因。
  3. 有些服务之间的调用涉及到了IP与域名的映射,必要时候需要修改hosts文件。

其他

  1. 解压备份的文件时最好指定解压到的文件夹,防止误操作覆盖已有的文件
  2. 备份文件要加上备份的日期,必要时候附加说明,多个版本便于恢复。

猜你喜欢

转载自www.cnblogs.com/luoxiaolei/p/12819764.html