使用Prometheus的Node-exporter监控Kubernetes的Node节点失败问题解决

今天继续给大家介绍Linux运维相关知识,本文主要内容是使用Prometheus的Node-exporter监控Kubernetes的Node节点失败问题解决。

一、报错现象

前段时间,我在配置Prometheus使用Node-exporter监控Kubernetes的Node节点时,发现监控失败,配置的自动发现监控项失效,在Prometheus的显示中没有出现对Node节点的监控项,查看Prometheus节点的日志,结果如下:
在这里插入图片描述

二、报错解决

我们可以使用kubectl exec命令进入到Prometheus容器内部,然后使用PING命令查看是否可以PING通上述IP地址,如果不能,那么可以采取将网络模式修改为ipvs的方式解决,解决方法如下所示:
执行命令:

kubectl edit cm kube-proxy -n kube-system

将mode改为mode “ipvs”
之后,创建/etc/sysconfig/modules/ipvs.modules文件,并在文件中写入如下内容:

modprobe -- ip_vs
modprobe -- ip_vs_rr
modprobe -- ip_vs_wrr
modprobe -- ip_vs_sh
modprobe -- nf_conntrack_ipv4

之后,我们执行命令:

chmod 755 /etc/sysconfig/modules/ipvs.modules
bash /etc/sysconfig/modules/ipvs.modules
lsmod | grep -e ip_vs -e nf_conntrack_ipv4

赋予该文件执行的权限,并且执行该文件,最后的命令时查看文件的执行情况,结果如下所示:
在这里插入图片描述
之后,我们需要重启kube-proxy,执行命令:

kubectl get pod -n kube-system | grep kube-proxy |awk '{system("kubectl delete pod "$1" -n kube-system")}'

注意,上述操作需要在Kubernetes集群的所有节点上操作。执行完毕后,我们查看kube-proxy的日志,结果如下所示:
在这里插入图片描述
如果之前的配置有误,那么Kubernetes的日志如下所示:
在这里插入图片描述
这时,我们就需要查看之前的步骤,然后进行改正。
最后,我们再次进入Prometheus的Pod中,发现可以PING通了,结果如下:
在这里插入图片描述
注:如果上述操作还是不能解决问题,那么可以参考以下方法解决:使用Prometheus的Node-exporter监控Kubernetes的Node节点失败(dial tcp i/o timeout)问题解决
原创不易,转载请说明出处:https://blog.csdn.net/weixin_40228200

猜你喜欢

转载自blog.csdn.net/weixin_40228200/article/details/124833372