kubernetes之node资源紧缺时pod驱逐机制

在系统硬件资源紧缺的情况下保证node的稳定性, 是kubelet需要解决的一个重要问题
1.驱逐策略
kubelet持续监控主机的资源使用情况, 一旦出现资源紧缺的迹象, kubelet就会主动终止一个或多个pod的运行，以回收紧缺的资源

2.驱逐信号
kubelet根据信号作为决策依据来触发驱逐行为

- memory.available
- nodefs.available
- nodefs.inodesFree
- imagefs.available
- imagefs.inodesFree
memory : 内存，不是根据系统的free 收集，取值来自于cgroupfs，free -m命令不支持在容器中工作
nodefs: 指node自身的存储，存储daemon的运行日志等，一般指root分区/；
imagefs: 指docker daemon用于存储image和容器可写层(writable layer)的磁盘；

3.驱逐阀值：一旦超过阀值，就会触发kubelet进行资源回收
例：memory.available<10% 可用内存不足10%时进行驱逐

软驱逐：当系统资源消耗达到软阀值, 有一段的宽限期, kubelet不会触发驱逐动作,

--eviction-soft=memory.available<1.5GiB                驱逐阀值
-eviction-soft-grace-period=memory.available=1m30s   驱逐宽限期

硬驱逐：没有宽限期，达到硬阀值，直接触发对pod的驱逐操作

--eviction-hard=memory.available<1.5GiB

4.驱逐监控频率

--housekeeping-interval  定义一个时间间隔, kubelet每隔一个时间间隔就会对驱逐阀值进行评估

5.节点资源紧张情况下的kubelet行为
node节点回收资源：磁盘有压力的情况下回收资源方式：删除死掉的pod, 删除无用的镜像
如果通过删除上面的方式无法回收资源, 那么会进行驱逐用户的pod策略：根据pod服务的服务质量qos（besteffort, burstable, guaranteed）

6.节点资源紧张情况下的系统行为

调度器行为： kubelet会向master报告这个情况, 调度器不再继续向节点调度新的pod
node的oom行为： kubelet根据pod的qos为每个容器设置了一个oom_score_adj 值, 得分最高的容器会被驱逐, 与pod驱逐不同, 一个pod容器被oom杀掉, 可能被kubelet根据restartpolicy重启
kubelet无法区分daemonset类型的pod, 所以不建议把daemonset的pod设置成besteffort类型

7.驱逐策略建议

保留10%的内存给系统守护进程（内核, kubelet, kube-proxy, flanneld） 防止进程资源不够
内存使用率达到95%立即进行pod驱逐防止系统的oom
以节点内存容量10G为例子
--eviction-hard=memory.avai lable<500Mi
--system-reserved=memroy=1.5Gi

8.主动驱逐保护：PodDisruptionBudget资源对象

当节点处于维护状态（kubectl drain）,会马上驱逐节点上的pod, 需求是系统应该保证应用以不低于一定数量的pod保障服务的正常运行, 系统将确保每终止一个pod后, 一定会在另一台健康的node上启动新的pod, 再继续终止下一个pod

kubernetes之node资源紧缺时pod驱逐机制

猜你喜欢