被驱逐的pod无法被回收问题解决方案 - 代码天地

被驱逐的pod无法被回收问题解决方案

其他 2020-02-13 16:06:30 阅读次数: 0

Evicted pod大量创建问题解决方案

第1章文档目的

第2章场景复现

第3章解决方案

1. 文档目的

集群某一节点磁盘或者内存压力较大时，会出现pod创建失败的情况，该失败pod会被立即驱逐但不会被k8s回收；由于deploy未被删除，k8s会一直处于创建pod，驱逐pod的死循环状态，这会产生大量的未被回收的pod，针对该问题提出解决方案

2. 场景复现

2.1 环境准备

实验集群：master：10.1.11.129 node：10.1.11.130

130节点，磁盘使用到80%以上

创建pod的deploy.yaml内容如下（需要指定nodeName为130）：

启动该deploy，观察pod情况如下（随着时间的增长evicted pod会越来越多，理论上最多12500个）：

说明：该图指截取了部分pod

3.解决方案

3.1 修改master节点中kube-contoller-manager.yaml配置参数，设置evcited的阀值如下：

说明：该阀值的含义是：节点中可存在状态为evicted的pod的数量，默认是12500，超过该阀值的pod就会被删除，如果该值为0，则代表着不做限制，evicted的pod可以有很多。最小设置为1。

修改完毕执行systemctl daemon -reload && systemctl restart kubelet，再查看pod情况如下：

说明：通过对比上文第三张图，可以看出状态为evicted的pod数量已经很少了，但是我们在kube-controller-manager.yaml中设置的阀值为1，为什么现在不是1个呢？

推测原因是：deploy中指定的replicas为4，pod的创建速度大于删除速度，所以会出现这种问题。

3.2 验证节点恢复正常后pod是否恢复正常：

环境准备：

130节点减小磁盘压力：

在不重启deploy的前提下，持续观察pod状态，经过3次测试，得到结果是：5分钟内，pod状态会恢复正常（前提是deploy指定的实例不是很大）如图：

说明：此时节点中仍存在一个evicted状态的pod，手动删除该pod。

发布了5 篇原创文章 · 获赞 0 · 访问量 7376

私信关注

猜你喜欢

转载自blog.csdn.net/Billy_xxu/article/details/101760983

被驱逐的pod无法被回收问题解决方案

mac_系统升级至macOS Mojave无法pod问题解决方案

PyCharm无法引用matplotlib的问题解决方案

monkeyrunner无法运行的问题解决方案总结

Opencores 无法点击submit的问题解决方案

ARCGIS问题解决方案

网站问题解决方案

Python问题解决方案

pip问题解决方案

乱码问题解决方案

线上问题解决方案

PCB问题解决方案

幂等问题解决方案

问题解决方案

【问题解决方案】Dev C++ 无法调试的问题与解决

解决单机版k8s pod 访问不了service网络问题解决方案

“引用的账户当前已锁定，切无法登录“问题解决方案 “引用的账户当前已锁定，切无法登录“问题解决方案

docker-compose配置depends_on无法解决启动顺序问题解决方案

iOS pod repo push 报错 ld: file not found: libarclite_iphoneos.a 问题解决方案

BIOS——PE无法识别硬盘问题问题解决方案

【问题解决方案】The MathType Dll cannot be found 问题解决方案

关于dubbo+shiro导致dubbo无法注入的问题解决方案

Win10系统Nginx无法启动的问题解决方案

MyEclipse断点调试时无法进入源文件的问题解决方案

mac下调试android时设备无法识别的问题解决方案

heritrix无法抓取中文URL的问题解决方案

Mac office ppt无法正常输入文字的问题解决方案

关于spring boot无法自动注入bean问题解决方案

adb无法连接手机问题解决方案

【Android】不同的View引起软键盘无法关闭问题解决方案

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)