Pod中容器健康检查和恢复机制

健康检查

Kubernetes文档例子：

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: test-liveness-exec
spec:
  containers:
  - name: liveness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 5
      periodSeconds: 5

这里定义的容器liveness会创建/healthy文件，然后30秒后删除。与此同时，健康检查每隔5秒检查文件是否存在，如果成功，则返回0，kubelet认为是容器是健康运行的。
运行这个Pod

kubectl create -f test-liveness.yaml

在30s后查看event事件，使用命令：

kubectl describe pod test-liveness-exec

event事件

可以看到因为检查到文件不存在，所以报告了异常，此时查看Pod状态

pod-status.png

Pod是running状态，然后再次查看event事件

event.png

可以看到容器很快被杀掉，然后重新启动一个新的容器，这里就会涉及容器的恢复机制，文章后面再说。
除了使用上面命令的方式之外，还可以使用http或者tcp的方式检测
下面是http的方式：

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-http
spec:
  containers:
  - name: liveness
    image: k8s.gcr.io/liveness
    args:
    - /server
    livenessProbe:
      httpGet:
        path: /healthz
        port: 8080
        httpHeaders:
        - name: X-Custom-Header
          value: Awesome
      initialDelaySeconds: 3
      periodSeconds: 3

容器暴露了8080端口，kubelet会定时每隔3秒访问/healthz路径，如果返回大于200少于400的状态码都认为是成功的。
下面是tcp方式：

apiVersion: v1
kind: Pod
metadata:
  name: goproxy
  labels:
    app: goproxy
spec:
  containers:
  - name: goproxy
    image: k8s.gcr.io/goproxy:0.1
    ports:
    - containerPort: 8080
    readinessProbe:
      tcpSocket:
        port: 8080
      initialDelaySeconds: 5
      periodSeconds: 10
    livenessProbe:
      tcpSocket:
        port: 8080
      initialDelaySeconds: 15
      periodSeconds: 20

如您所见，TCP 检查的配置与 HTTP 检查非常相似。此示例同时使用了 readiness 和 liveness probe。容器启动后5秒钟，kubelet将发送第一个 readiness probe。这将尝试连接到端口8080上的 goproxy 容器。如果探测成功，则该 Pod 将被标记为就绪。Kubelet 将每隔10秒钟执行一次该检查。

如您所见，TCP 检查的配置与 HTTP 检查非常相似。此示例同时使用了 readiness 和 liveness probe。容器启动后5秒钟，kubelet 将发送第一个 readiness probe。这将尝试连接到端口8080上的 goproxy 容器。如果探测成功，则该 pod 将被标记为就绪。Kubelet 将每隔10秒钟执行一次该检查。

除了 readiness probe之外，该配置还包括 liveness probe。容器启动15秒后，kubelet 将运行第一个 liveness probe。就像readiness probe一样，这将尝试连接到 goproxy 容器上的8080端口。如果 liveness probe 失败，容器将重新启动。

恢复机制

Pod的恢复机制，相关字段是（pod.spec.restartPolicy），默认是always，可选策略有以下三种：

Always:在任何情况下，只要容器不在运行状态，就自动重启
OnFailure:只有容器在异常时才自动重启
Never:从不自动重启
具体使用哪种策略，根据具体情况，对于一些一次性的任务使用的是Never，如果需要关心异常退出后的上下文环境，比如日志、文件等，就需要设置成Never，不然的话，容器重启后这些内容就丢失。
相关设计原则：
只要 Pod 的 restartPolicy 指定的策略允许重启异常容器（比如：Always)，那么这个容器就会保持Running状态，并且进行重启。
对于包含多个容器的Pod，只有它里面所有的容器都进入异常状态后，Pod才会进入Failed状态。

readinessProbe

有时，应用程序暂时无法对外部流量提供服务。例如，应用程序可能需要在启动期间加载大量数据或配置文件。在这种情况下，您不想杀死应用程序，也不想发送请求。 Kubernetes提供了readiness probe来检测和减轻这些情况。 Pod中的容器可以报告自己还没有准备，不能处理Kubernetes服务发送过来的流量。
Readiness probe的配置跟liveness probe很像。唯一的不同是使用 readinessProbe 而不是livenessProbe。