一次VDP故障记录

背景

现有vsphere5.5环境,300+ VM ,不少重要业务需要备份,之前部署了三个节点的VDP来备份这些VM,由于标准版VDP有存储容量上的限制(好像可用3T),现在的备份任务只保存三天,正好测试备份产品,准备用测试产品备份现有VDP的备份计划,今天一看vcenter事件,vdp3告警,再往下看,两三天的任务都没正常备份了,坑以后再说,开始说故障处理。

故障发现

==vcenter 任务事件告警信息==
mark
检查点过期?马上看前几天的事件,发现近几天的备份都未成功,
登录vsphere-web-client 看看vdp上的事件(慢)

VDP的报告截图
mark

第一反应,完整性检查,但是这不应该需要人员干预阿,But,看以用容量, 2% 再看下最后成功备份的日期,备份保留时间只有三天,第一反应是三天备份失败,备份都被删除了,但是这不科学的阿,

这里说下,最好的处理办法是现在重新部署一个VDP来接管之前的备份任务。
这里抱着试试看的心态来搞点事情,(结果通宵了- -!

顺便证明一波国内某知名搜索引擎有多没用
使用一波搜索引擎,给的答案简直就是所问非所答,只有有关键字就往上靠,搜vdp故障竟让能搜出安装vcenter的文档,(呵呵呵)

还有什么vmsky阿,太不活跃,看帖子跟学历史似的,
gg一波,

处理思路和流程

下面说下我处理的思路和流程

  1. 开始新的备份(反正也没备份集了,这最简单,)
  2. 报错说完整性检查状态过时,那就检查一波完整性,那么问题来了,我都没数据了 完整性检查毛线

一步一步来

  • 打开web-client ,备份试试,VDP龟速,等一年 终于出了连接备份
  • 点了,等着
  • 报错了, 时间不同步,(这里说下,并不是VDP的始终不准确,而是vcenter的同步频率周期太长,)这就去同步
  • 继续等
  • 等可以点备份了,备份试下,
  • 很好,不让备份,报错内容“vdp应用装置处于一下状态时无法备份 Admin“
  • VDP状态为Admin时不让开始备份任务,
  • 抱着试试看的心态,我愚蠢的去完整性检查
  • 这回厉害了,等半小时报错,这个故障现象一点信息量都没有(“暂时无法检查,请稍后再试”)
  • 这里本菜鸡懵逼了,开启搜索模式,这里安利一个比官方kb 国内某论坛强一万倍的Communities(https://communities.vmware.com
    首先登陆vdp的shell 先查看下服务的状态,步骤如下:
dpnctl status

输出如下

Identity added: /home/dpn/.ssh/dpnid (/home/dpn/.ssh/dpnid)
dpnctl: INFO: gsan status: degraded
dpnctl: INFO: MCS status: up.
dpnctl: INFO: emt status: up.
dpnctl: INFO: Backup scheduler status: up.
dpnctl: INFO: axionfs status: down.
dpnctl: INFO: Maintenance windows scheduler status: enabled.
dpnctl: INFO: Unattended startup status: enabled.
dpnctl: INFO: avinstaller status: up.
dpnctl: INFO: [see log file "/usr/local/avamar/var/log/dpnctl.log"]

这里看到gsan状态是degraded 这个应该就是状态一直为admin的原因吧
重启下这个服务,然后启动所有服务。

dpnctl stop gsan
dpnctl start all

再看状态为up了,而且我一直看着web-client 突然看到已用容量为90%多,(可能是幻觉吧)
服务状态对了,我再去完整性检查试下,点完之后又是等
mark
这时候在看下服务的状态,又变回去了,我懵了,看着这些VDP报告,估计手动备份肯定也是要gg的
我去看log, /var/log/message 没有什么有价值的信息,
mail 也没什么信息,
/usr/local/avamar/var/log/ 下的日志,也没什么有用的信息

顺手执行了条 df -lh (不是rm -rf / , chmod -R 000 /)

mark
数据盘全满
那么问题来了,为什么在WEB 上没有显示出来了,而且已用空间2% 备份点也一个都没有,
现在的思路

  1. vdp3与vcenter的认证出了问题,
  2. vdp3的数据过大导致显示为0
  3. BUG

现在解决这个问题是矛盾的,
首先,正常来如果我的data01 data02 data03 没空间, 删除步骤或者清理步骤,应该是登录web-client 然后完整性检查,或者是去web上删除备份点,
我这么直接rm了不知道ok不ok,
查找kb和社区,给出的答案就是在shell下强制检查,我无法检查,报错,(有可能是空间不够我做整合或者检查的)
还有解决办法是联系技术支持,

好吧不纠结了, 就这样吧
一会儿还要上班呢,
明天来决定是rm 还是联系技术支持来搞,还是直接重新部署vdp、
睡了

mark
August 4, 2017 2:53 AM

猜你喜欢

转载自www.cnblogs.com/xth0331/p/9655616.html