参考：https://kubernetes.io/docs/concepts/workloads/pods/pod-lifecycle/

Pod phase

系统中表示pod的条目包含一个表示pod状态的字段，称为“status”。“status”字段本身是一个“PodStatus”类型的对象，其中包含一个“phase”字段，用来表示pod当前所处的生命周期状态。以下是“phase”可能的取值：

Value	Description
Pending	系统已经接受pod实例的创建，但其中所包含容器的一个或者多个image还没有创建成功。Pending包含调度计算与通过网络创建image，所以此phase的时间可能会有点长。
Running	Pod已经被调度到某个node上，pod包含的所有容器已经创建完成，至少有一个容器正常运行或者处于启动与重启动过程。
Succeeded	Pod中的所有容器正常终止，并且不会再次启动。
Failed	Pod中所有容器已终止运行，至少有一个容器非正常结束，比如退出码非零，被系统强制杀死等。
Unknow	无法取得pod状态，一般是网络问题引起。

由以上可知，phase表示的pod状态非常粗略与宽泛。

Pod conditions

PodStatus还包含PodConditions字段，此字段表示pod更详细的状态信息，PodConditions是一个数组，数据中的每个成员包含如下六个字段：

lastProbeTime：表示PodConditions最后一次被探测的时间戳。
latTransitionTime：表示PodConditions中“status”字段最后一次发生变更的时间戳。
message：人可读的最后一次“status”变更的原因
reason：表示最后一次“status”变更原因的标识，不可读。
status：表示pod状态，可能的值“True”、“False”、“Unknow”。

最后一个字段“type”，有如下五种可能取值：

PodScheduled：Pod已经被高度到某个node。
Ready：Pod已经可以接受请求对外提供服务，此时pod可以被加入到相应service的endpoint中。
Initialized：所有初始化容器已经成功启动。
Unschedulable：Pod无法被调度。
ContainersReady：Pod中所有容器的状态处于“ready”状态。

Container probes

“探针”是指由kubelet周期性调用的处理程序，实现对容器状态的诊断，探针处理程序的实现有以下三种方式：

ExecAction：在容器内执行的特殊命令，如果退出码为0，则表示容器健康。
TCPSocketAction：检测容器某个端口，如果端口打开则认为正常。
HTTPGetAction：向容器的某个路径发起HTTP GET请求，如果返回应答状态码大于等于200小于400则认为正常。

探针的返回结果有以下三种：

Succees：表示容器通过诊断。
Failed：表示容器没有通过诊断。
Unknown：诊断本身失败，所以对容器的诊断结果未知。

以上是探针处理程序的三种实现方式，从kubernetes对探针结果的操作与反应看，探针分成两类：

livenessProbe：表示容器是否正在运行。如果这种类型的探针诊断失败，则 kubelet杀死容器，然后根据restart policy决定后续处理。如果没有提供此种类型的探针则默认诊断成功。
readinessProbe：指示容器是否能处理请求。如果失败，则将此容器的endpoint从所有包含此endpoint的service中删除。当容器处于启动时的初始化阶段时，此探针的诊断结果为Succees，如果没有提供此类探针，默认诊断结果为Success。

由以上可知，探针由kubelet执行，其结果影响kubelet对容器执行何种操作。

When should you use liveness or readiness probes?

如果容器中运行的程序能够健康自检，当发生问题时程序主动退出、销毁，这种情况无需使用livenessProbe，kubelet能根据restart policy正确处理。如果程序不具备自检功能，那么可以通过livenessProbe检测程序状态，当失败时kubelet杀死容器。同样kubelet根据restart policy决定后续处理。比如restart policy设置成"Always"或者"OnFailure"，则重新启动容器。只是重启，并没有试图去修复问题。

如果打算在某项条件具备之前，不允许pod处理请求，则可以使用readinessProbe。readinessProbe失败并不会像livenessProbe一样删除容器，只是阻止容器处理外部发过来的请求。当readinessProbe成功后，容器就可以正常对外提供服务了。

当删除pod时，无需通过readinessProbe实现drain操作。当删除pod时，pod会进入"unready"状态，不管有没有readinessProbe，这种状态会一直操持到pod被stop。

有关探针的详细使用方法： Configure Liveness and Readiness Probes。

Pod and Container status

Pod状态详细参考：PodStatus

Container状态详细参考：ContainerState

注意pod状态对container的状态有依赖。

Restart policy

有三种重启策略： Always、OnFailure、Never。Always表示容器无论是正常还是异常退出都重启。Onfailure表示只有在容器异常退出时才重启。Never表示无论容器是正常还是异常退出都不重启。Kubernetes根据算法将重启的时间间隔逐渐拉大，重启成功后重置。单纯从重启策略上看的话，重启策略不关系异常退出原因，也没有也异常修复过程集成，好像没有什么鸟毛的用处。如果容器因为自身原因，比如配置问题启动失败而异常退出，那么重启多少次结果都一样。

Pod lifetime

除非被用户或者某个控制器明确删除，否则pod会一直存在。这条规则的例外情况是处于"Succeeded"或者"Failed"的pod，如果处于此种状态超过一定的时限，比如terminated-pod-gc-threshold的设定值，则会被垃圾回收机制清除。

pod控制器与restart policy的适配：

JOB：适用于一次性任务如批量计算，任务结束后pod会被此类控制器清除。JOB的重启策略只能是"OnFailure"或者"Never"。
ReplicationController, ReplicaSet, or Deployment，此类控制器希望pod一直运行下去，它们的restart policy只能是"always"。
DaemonSet：每个node一个pod，很明显此类控制器的restart policy应该是"always"。

Examples

Advanced liveness probe example

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness-http
spec:
  containers:
  - args:
    - /server
    image: k8s.gcr.io/liveness
    livenessProbe:
      httpGet:
        # when "host" is not defined, "PodIP" will be used
        # host: my-host
        # when "scheme" is not defined, "HTTP" scheme will be used. Only "HTTP" and "HTTPS" are allowed
        # scheme: HTTPS
        path: /healthz
        port: 8080
        httpHeaders:
        - name: X-Custom-Header
          value: Awesome
      initialDelaySeconds: 15
      timeoutSeconds: 1
    name: liveness

探针由kubelet执行，那么执行探针时使用的网络与kubelet占用的网络一样，而容器的属于pod网络，要保证网络的连通性。

Example states

Pod包含一个容器，容器正常退出.
- 日志正常完成事件
- 如果重启策略是：
  - Always: 重启容器; Pod的phase保持在Running.
  - OnFailure: Pod的phase变成Succeeded.
  - Never: Pod的phase变成Succeeded.
容器异常退出
- 日志失败事件。
- 如果restart policy是：
  - Always: 重启容器; Pod的phase保持在Running.
  - OnFailure: 重启容器；Pod的phase保持在Running.
  - Never: 不重启容器，Pod的phase变成Failed.
Pod有两个容器，其中一个异常退出：
- 日志失败事件
- 如果restart policy是：
  - Always: 重启异常退出容器，pod的phase是Running.
  - OnFailure:重启异常退出容器，pod的phase是Running .
  - Never: 不重启容器，但pod的phase依然是Running.
- 如果容器1没有运行，容器2异常退出:
  - 日志失败事件
  - 如果restart policy是：
    - Always: 重启异常退出容器，pod的phase是Running.
    - OnFailure: 重启异常退出容器，pod的phase是Running.
    - Never: 不重启容器，但pod的phase变成failed.
pod只有一个容器，容器运行时内存溢出：
- 容器异常退出
- 日志OOM事件
- 如果restart policy是：
  - Always: 重启异常退出容器，pod的phase是Running（不修复问题，重启有什么用？）.
  - OnFailure: 重启异常退出容器，pod的phase是Running（不修复问题，重启有什么用？）.
  - Never: pod的phase变成Failed.
pod在运行时磁盘出问题（由谁发现磁盘出问题？）：
- 杀死所有容器
- 日志相应事件
- pod的phase变成Failed
- 如果有相关控制器，则控制器在其它地方创建新实例。
pod运行时node离开集群
- Node controller 联系不上node，node的状态变成unknown。
- Node controller 将pod的状态设置成Failed。
- 控制器在其它地方设置副本。

kubernetes之pod生命周期