vcenter报vSphere HA agent is unreachable告警

问题描述

1)在vc中受影响ESXi主机摘要页报:vSphere HA reports that an agent is in the Agent Unreachable state
2)重启vcenter服务和management agents 无效

原因:

如果存在阻止vCenter Server联系主机和主机上代理的网络问题,或者群集中的所在主机出现故障,则会发生此问题。如果主机上的代理失败,并且监视程序进程无法重新启动它,也可能会发生此问题。

处理

1、检查 vCenter所报相关主机是否异常(不可达,连接丢失,down机,网卡异常等)
2、如果esxi主机处于未响应状态、网络故障或群集级别错误,对应解决相关层面问题;
3、对agent未响应的主机,ssh登录esxi系统,查看日志:
less /var/log/vpxa.log |grep error
确认是否有关于vCenter Server and the host Management Agent (hostd).通信的报错error;

另外,检查/var/log/fdm.log 日志,该日志记录了Domain Manager报错信息,查看是否有HA相关的报错信息;
4、在群集配置里关闭HA后再开启HA,让群集内主机重新配置HA;

附录:ESXi主机not responding的情况

4.1 问题描述

a) vc中esxi主机报: “not responding”(未响应)
b)vc中esxi主机状态显示:已断开连接;点击连接主机报失败,无法重新与vc建立连接
Unable to access the specified host, either it doesn’t exist, the server software is not responding, or there is a network problem

检查vc日志 vpxd.log:

T

T


c)vc中受影响esxi主机上的vm处于灰色状态

4.2 esxi未响应和断开连接的区别

a)esxi未响应: 这是因为vc与host之间心跳信息无法成功发送和探测,往往是vc无法识别的的一些外部因素导致的,造成vc无法接收到来自host的心跳上报,任何导致两者之间心跳中断的因素都会造成该告警触发。

1、可检查:UDP 902端口是否可通,路由信息是否正确,网络是否可达,是否丢包,vlan信息是否丢失,数据转发异常等等;
2、对受影响esxi主机,检查hostd 和vpxa服务是否运行正常;

**注意:**对于处于断开连接的主机,其将不再受vc的监控,即使底层网络修复完成,其也检测不到无法自动重新上报心跳信息,必须在vc页面重新建立其与vc的连接。

b)esxi已断开连接L: vCenter侧如果esxi主机处于Disconnected状态,vc会暂停对该主机的管理,所有vCenter Server服务都会忽略该主机。这种状态下,vc也不再监控该主机,即无法获取该主机任何之后的信息,其监控状态亦不可知,同时该主机及其上托管的vm(vm也将排除出故障切换容量)将不再受HA保护直到其再次重连被纳管。ESXi主机断开连接可能原因:

1、用户出于维护等需求或误操作,主动将esxi主机与vc断开连接;
2、未响应的esxi主机,当在vc中执行重连,失败后会报断开连接状态;
3、esxi主机license过期导致

注: 主机断开连接会触发HA主机隔离告警,这是因为故esxi上的agent无法与其他主机agent通信(而不是vc),且无法与主机隔离的检测ip通信,最终触发HA主机隔离告警。而主机未响应未必会触发,因为主机可能底层网络仍可与其他主机agent通信或与隔离检测地址通信;

4.3 处理

1、 esxi主机未响应且无法通过web连接管理,esxi主机上的vm被置灰;可在vc的 vpxd.log 日志中有相关报错,包含vmodl.fault.HostCommunication关键字;可IPMI登录物理主机,利用KVM打开esxi主机console,检查DNS,物理管理网络,网卡接口等;

检查esxi主机是否被认为故意重启,检查/var/log/hostd.log ,/var/log/shell.log搜索DCUI: reboot相关信息。

如果是故意关机的话,日志中有ostSystem.shutdown或DCUI: poweroff信息,还可检查vmkernel.log查看是否有PowerButton信息;

检查主机是否生产内核转储文件,默认是不会生成的,手动生产可执行:esxcfg-dumppart ;主机意外重启,/var/log/vmksummary.log 日志会显示转储文件的位置。

检查主机是否紫屏自动重启:esxcfg-advcfg -g /Misc/BlueScreenTimeout,非0表允许。

更多详见:https://kb.vmware.com/s/article/1003409

猜你喜欢

转载自blog.csdn.net/ximenjianxue/article/details/108403781
HA
今日推荐