k8s运行容器之Job应用（6）

　　容器按照持续运行的时间可分为两类：服务类容器和工作类容器。

　　服务类容器通常持续提供服务，需要一直运行，比如 http server，daemon 等。工作类容器则是一次性任务，比如批处理程序，完成后容器就退出。

　　Kubernetes 的 Deployment、ReplicaSet 和 DaemonSet 都用于管理服务类容器；对于工作类容器，我们用 Job。

一、job的应用

1、编写job的yaml文件myjob.yaml：

[root@ren7 yaml]# cat myjob.yaml 
apiVersion:  batch/v1　　
kind: Job
metadata:
  name: job
spec:
  template:
     spec:
        containers:
            - name: job
              image: reg.yunwei.com/learn/busybox:latest
              command: ["echo","hello kubernetes"]
        restartPolicy: Never

　　① batch/v1 是当前 Job 的 apiVersion。

　　② 指明当前资源的类型为 Job。

　　③ restartPolicy 指定什么情况下需要重启容器。对于 Job，只能设置为 Never 或者 OnFailure。对于其他 controller（比如 Deployment）可以设置为 Always 。

2、启动job

[root@ren7 yaml]# kubectl apply -f myjob.yaml 
job.batch/job created

3、查看job的状态

[root@ren7 yaml]# kubectl get job
NAME   COMPLETIONS   DURATION   AGE
job    1/1           3s         84s

4、查看pod的状态

[root@ren7 yaml]# kubectl get pod
NAME                                READY   STATUS        RESTARTS   AGE
job-m9shb                           0/1     Completed     0          2m40s

　　显示completed已经完成

5、查看pod的标准输出

[root@ren7 yaml]# kubectl logs job-m9shb
hello kubernetes

二、job失败的情况

　　如果job失败了会怎么样呢？

1、修改myjob.yaml文件，故意引入一个错误：

[root@ren7 yaml]# cat myjob.yaml 
apiVersion:  batch/v1
kind: Job
metadata:
  name: job
spec:
  template:
     spec:
        containers:
            - name: job
              image: reg.yunwei.com/learn/busybox:latest
              command: ["echorrr","hello kubernetes"]
        restartPolicy: Never

2、删除之前的job

[root@ren7 yaml]# kubectl delete -f myjob.yaml 
job.batch "job" deleted
[root@ren7 yaml]# kubectl get pod
No resources found.

3、运行新的job并查看状态

[root@ren7 yaml]# kubectl apply -f myjob.yaml 
job.batch/job created
[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS               RESTARTS   AGE
job-l9spb   0/1     ContainerCannotRun   0          5s
job-mk5fp   0/1     ContainerCreating    0          1s
[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS               RESTARTS   AGE
job-2phbq   0/1     ContainerCreating    0          2s
job-l9spb   0/1     ContainerCannotRun   0          16s
job-mk5fp   0/1     ContainerCannotRun   0          12s

　　发现没有创建成功，显示0

　　并且可以看到有多个pod，状态均不正常。

4、使用 kubectldescribe pod 查看某个pod的启动日志

[root@ren7 yaml]# kubectl describe pods job-2phbq
Name:           job-2phbq
Namespace:      default
Node:           192.168.11.5/192.168.11.5
Start Time:     Fri, 25 Oct 2019 19:02:56 +0800
Labels:         controller-uid=f7746782-f716-11e9-867d-000c297d011c
                job-name=job
Annotations:    <none>
Status:         Failed
IP:             172.20.72.146
Controlled By:  Job/job
Containers:
  job:
    Container ID:  docker://858e1dffa45cad2e43fa096b002a925f15dfc07ad08b406c4c2ad01fe68c2ccd
    Image:         reg.yunwei.com/learn/busybox:latest
    Image ID:      docker-pullable://reg.yunwei.com/learn/busybox@sha256:dd97a3fe6d721c5cf03abac0f50e2848dc583f7c4e41bf39102ceb42edfd1808
    Port:          <none>
    Host Port:     <none>
    Command:
      echorrr
      hello kubernetes
    State:          Terminated
      Reason:       ContainerCannotRun
      Message:      OCI runtime create failed: container_linux.go:348: starting container process caused "exec: \"echorrr\": executable file not found in $PATH": unknown
      Exit Code:    127
      Started:      Fri, 25 Oct 2019 19:02:58 +0800
      Finished:     Fri, 25 Oct 2019 19:02:58 +0800
    Ready:          False
    Restart Count:  0
    Environment:    <none>
    Mounts:
      /var/run/secrets/kubernetes.io/serviceaccount from default-token-qvqql (ro)
Conditions:
  Type              Status
  Initialized       True 
  Ready             False 
  ContainersReady   False 
  PodScheduled      True 
Volumes:
  default-token-qvqql:
    Type:        Secret (a volume populated by a Secret)
    SecretName:  default-token-qvqql
    Optional:    false
QoS Class:       BestEffort
Node-Selectors:  <none>
Tolerations:     <none>
Events:
  Type     Reason     Age   From                   Message
  ----     ------     ----  ----                   -------
  Normal   Scheduled  11m   default-scheduler      Successfully assigned default/job-2phbq to 192.168.11.5
  Normal   Pulling    11m   kubelet, 192.168.11.5  Pulling image "reg.yunwei.com/learn/busybox:latest"
  Normal   Pulled     11m   kubelet, 192.168.11.5  Successfully pulled image "reg.yunwei.com/learn/busybox:latest"
  Normal   Created    11m   kubelet, 192.168.11.5  Created container job
  Warning  Failed     11m   kubelet, 192.168.11.5  Error: failed to start container "job": Error response from daemon: OCI runtime create failed: container_linux.go:348: starting container process caused "exec: \"echorrr\": executable file not found in $PATH": unknown

　　日志显示没有可执行程序符合我们的预期。

为什么kubectl get pod 会看到这么多个失败的pod？

　　原因是：当第一个 Pod 启动时，容器失败退出，根据 restartPolicy: Never，此失败容器不会被重启，但 Job DESIRED 的 Pod 是 1，目前 SUCCESSFUL 为 0，不满足，所以 Job controller 会启动新的 Pod，直到 SUCCESSFUL 为 1。对于我们这个例子，SUCCESSFUL 永远也到不了 1，所以 Job controller 会一直创建新的 Pod。为了终止这个行为，只能删除 Job。

[root@ren7 yaml]# kubectl delete -f myjob.yaml 
job.batch "job" deleted
[root@ren7 yaml]# kubectl get pod
No resources found.

　　如果将 restartPolicy 设置为 OnFailure 会怎么样？下面我们实践一下，修改 myjob.yml 后重新启动。

[root@ren7 yaml]# vim myjob.yaml 　　　　#依旧是错误命令，且改了restartPolicy: OnFailure
[root@ren7 yaml]# kubectl apply -f myjob.yaml 
job.batch/job created
[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS              RESTARTS   AGE
job-9fd6w   0/1     ContainerCreating   0          2s
[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS              RESTARTS   AGE
job-9fd6w   0/1     RunContainerError   0          14s
[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS              RESTARTS   AGE
job-9fd6w   0/1     RunContainerError   1          27s
[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS             RESTARTS   AGE
job-9fd6w   0/1     CrashLoopBackOff   2          36s

　　完成依然为0。

　　这里只有一个 Pod，不过 RESTARTS 为 2，而且不断增加，说明 OnFailure 生效，容器失败后会自动重启。

三、并行执行job

　　有时，我们希望能同时运行多个pod，提高job的执行效率。

1、设置parallelism

[root@ren7 yaml]# cat myjob.yaml 
apiVersion: batch/v1
kind: Job
metadata:
  name: job
spec:
  parallelism: 2
  template:
    spec:
      containers:
        - name: job
          image: reg.yunwei.com/learn/busybox:latest
      restartPolicy: Never

2、执行该yaml文件

[root@ren7 yaml]# kubectl apply -f myjob.yaml 
job.batch/job created

3、查看job

[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS              RESTARTS   AGE
job-5jkpz   0/1     ContainerCreating   0          3s
job-svs94   0/1     ContainerCreating   0          3s
[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS      RESTARTS   AGE
job-5jkpz   0/1     Completed   0          10s
job-svs94   0/1     Completed   0          10s

　　job一共启动了两个pod，而且AGE相同，可见是并行运行的。

4、还可以通过 completions 设置 Job 成功完成 Pod 的总数：

[root@ren7 yaml]# cat myjob.yaml 
apiVersion: batch/v1
kind: Job
metadata:
  name: job
spec:
  parallelism: 2
  completions: 6
  template:
    spec:
      containers:
        - name: job
          image: reg.yunwei.com/learn/busybox:latest
      restartPolicy: Never

5、查看相应的pod和job

[root@ren7 yaml]# kubectl get pod
NAME        READY   STATUS      RESTARTS   AGE
job-82gll   0/1     Completed   0          18s
job-gsn55   0/1     Completed   0          18s
job-h6gnw   0/1     Completed   0          11s
job-nz5vs   0/1     Completed   0          14s
job-v48cr   0/1     Completed   0          15s
job-vx5gt   0/1     Completed   0          10s
[root@ren7 yaml]# kubectl get job
NAME   COMPLETIONS   DURATION   AGE
job    6/6           11s        72s

　　如果不指定 completions 和 parallelism，默认值均为 1。

　　上面的例子只是为了演示 Job 的并行特性，实际用途不大。不过现实中确实存在很多需要并行处理的场景。比如批处理程序，每个副本（Pod）都会从任务池中读取任务并执行，副本越多，执行时间就越短，效率就越高。这种类似的场景都可以用 Job 来实现。

四、定时执行job

　　Linux 中有 cron 程序定时执行任务，Kubernetes 的 CronJob 提供了类似的功能，可以定时执行 Job。

1、CronJob 配置文件示例如下：

[root@ren7 yaml]# cat myjob1.yaml 
apiVersion: batch/v1beta1
kind: CronJob
metadata:
  name: timing
spec:
  schedule: "*/1 * * * *"
  jobTemplate:
    spec:
      template:
         spec:
           containers:
             - name: timing
               image: reg.yunwei.com/learn/busybox:latest
               command: ["echo","hello k8s cronjob!"]
           restartPolicy: OnFailure

　　① batch/v1beta1 是当前 CronJob 的 apiVersion。

　　② 指明当前资源的类型为 CronJob。

　　③ schedule 指定什么时候运行 Job，其格式与 Linux cron 一致。这里 */1 * * * * 的含义是每一分钟启动一次。

　　④ jobTemplate 定义 Job 的模板，格式与前面 Job 一致。

2、通过 kubectl apply 创建 CronJob

[root@ren7 yaml]# kubectl apply -f myjob1.yaml 
cronjob.batch/timing created

3、查看crontab的状态

[root@ren7 yaml]# kubectl get job
No resources found.
[root@ren7 yaml]# kubectl get cronjob
NAME     SCHEDULE      SUSPEND   ACTIVE   LAST SCHEDULE   AGE
timing   */1 * * * *   False     0        <none>          15s

4、等待几分钟再次查看jobs的执行情况

[root@ren7 yaml]# kubectl get job
NAME                COMPLETIONS   DURATION   AGE
timing-1572005160   1/1           3s         2m29s
timing-1572005220   1/1           3s         89s
timing-1572005280   1/1           3s         29s

　　可以看到每隔一分钟就会启动一个job。

　　过段时间查看pod

[root@ren7 yaml]# kubectl get pod
NAME                      READY   STATUS      RESTARTS   AGE
timing-1572005340-5fds8   0/1     Completed   0          2m40s
timing-1572005400-8qsd4   0/1     Completed   0          99s
timing-1572005460-hnsh7   0/1     Completed   0          39s

5、执行kubectl logs 可查看某个 Job 的pod运行日志：

[root@ren7 yaml]# kubectl logs timing-1572005340-5fds8
hello k8s cronjob!

　　查看pod会遗留很多已经完成的pod，只需要删除即可。

[root@ren7 yaml]# kubectl delete -f myjob1.yaml 
cronjob.batch "timing" deleted
[root@ren7 yaml]# kubectl get pods
No resources found.