Docker日志管理（cgroup，stress 工具测试 CPU 周期限制，CPU Core 控制，CPU 配额控制参数的混合使用，Block IO 的限制，内存限额，bps 和 iops 的限制）

Docker日志管理：

关于docker与cgroup

cgroup的介绍


cgroups，其名称源自控制组群（control groups）的简写，是Linux内核的一个功能，用来限制、控制与分离一个进程组的资源（如CPU、内存、磁盘输入输出等）。这个项目最早是由Google的工程师（主要是Paul Menage和Rohit Seth）在2006年发起，最早的名称为进程容器（process containers）。在2007年时，因为在Linux内核中，容器（container）这个名词有许多不同的意义，为避免混乱，被重命名为cgroup，并且被合并到2.6.24版的内核中去。自那以后，又添加了很多功能。

cgroup的功能

cgroups的一个设计目标是为不同的应用情况提供统一的接口，从控制单一进程（像nice）到操作系统层虚拟化（像OpenVZ，Linux-VServer，LXC）。cgroups提供：资源限制：组可以被设置不超过设定的内存限制；这也包括虚拟内存。优先级：一些组可能会得到大量的CPU或磁盘IO吞吐量。结算：用来衡量系统确实把多少资源用到适合的目的上。控制：冻结组或检查点和重启动。

cgroup的作用

1.限制进程组可以使用的资源数量（Resource limiting ）。比如：memory子系统可以为进程组设定一个memory使用上限，一旦进程组使用的内存达到限额再申请内存，就会触发OOM（out of memory）。
2.进程组的优先级控制（Prioritization ）。比如：可以使用cpu子系统为某个进程组分配特定cpu share。
3.记录进程组使用的资源数量（Accounting ）。比如：可以使用cpuacct子系统记录某个进程组使用的cpu时间
4.进程组隔离（Isolation）。比如：使用ns子系统可以使不同的进程组使用不同的namespace，以达到隔离的目的，不同的进程组有各自的进程、网络、文件系统挂载空间。
5.进程组控制（Control）。比如：使用freezer子系统可以将进程组挂起和恢复。

一，Cgroup 资源配置

Docker通过 Cgroup 来控制容器使用的资源配额，包括 CPU、内存、磁盘三大方面，基本覆盖了常见的资源配额和使用量控制。
Cgroup 是 Control Groups 的缩写，是Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 CPU、内存、磁盘 IO 等等)的机制，
被 LXC、docker 等很多项目用于实现进程资源控制。Cgroup 本身是提供将进程进行分组化管理的功能和接口的基础结构，I/O 或内存的分配控制等具体的资源管理是通过该功能来实现的。
这些具体的资源管理功能称为 Cgroup 子系统，有以下几大子系统实现：
blkio：设置限制每个块设备的输入输出控制。例如:磁盘，光盘以及 usb 等等。
- CPU：使用调度程序为 cgroup 任务提供 CPU 的访问。
- cpuacct：产生 cgroup 任务的 CPU 资源报告。
- cpuset：如果是多核心的 CPU，这个子系统会为 cgroup 任务分配单独的 CPU 和内存。
- devices：允许或拒绝 cgroup 任务对设备的访问。
- freezer：暂停和恢复 cgroup 任务。
- memory：设置每个 cgroup 的内存限制以及产生内存资源报告。
- net_cls：标记每个网络包以供 cgroup 方便使用。
- ns：命名空间子系统。
- perf_event：增加了对每个 group 的监测跟踪的能力，可以监测属于某个特定的 group 的所有线程以及运行在特定CPU上的线程。
  下面开始利用 stress 压力测试工具来测试 CPU 和内存使用状况。

二，使用 stress 工具测试 CPU 和内存

使用 Dockerfile 来创建一个基于 Centos 的 stress 工具镜像

[root@localhost ~]# mkdir /opt/stress
[root@localhost ~]# vim /opt/stress/Dockerfile

FROM centos:7
MAINTAINER chen "[email protected]"
RUN yum install -y wget
RUN wget -O /etc/yum.repos.d/epel.repo http://mirrors.aliyun.com/repo/epel-7.repo
RUN yum install -y stress

[root@localhost ~]# cd /opt/stress/
[root@localhost stress]# docker build -t centos:stress .

使用如下命令创建容器，命令中的–cpu-shares 参数值不能保证可以获得 1 个 vcpu 或者多少 GHz 的 CPU 资源，它仅是一个弹性的加权值。

[root@localhost stress]# docker run -itd --cpu-shares 100 centos:stress

说明：默认情况下，每个 Docker容器的CPU份额都是1024。单独一个容器的份额是没有意义的。只有在同时运行多个容器时，容器的 CPU 加权的效果才能体现出来。
例如，两个容器 A、B 的 CPU 份额分别为 1000 和 500，在CPU进行时间片分配的时候，容器A比容器B多一倍的机会获得 CPU 的时间片。
但分配的结果取决于当时主机和其他容器的运行状态，实际上也无法保证容器 A一定能获得CPU时间片。比如容器A的进程一直是空闲的，
那么容器B是可以获取比容器A更多的CPU时间片的。极端情况下，例如主机上只运行了一个容器，即使它的 CPU 份额只有 50，它也可以独占整个主机的CPU资源。
Cgroups 只在容器分配的资源紧缺时，即在需要对容器使用的资源进行限制时，才会生效。因此，无法单纯根据某个容器的CPU份额来确定有多少CPU资源分配给它，
资源分配结果取决于同时运行的其他容器的CPU分配和容器中进程运行情况。
可以通过 cpu share 可以设置容器使用 CPU 的优先级，比如启动了两个容器及运行查看 CPU 使用百分比。

[root@localhost stress]# docker run -tid --name cpu512 --cpu-shares 512 centos:stress stress -c 10   //容器产生10个子函数进程
[root@localhost stress]# docker exec -it f4953c0d7e76 bash  //进入容器使用top查看cpu使用情况

//再开启一个容器做比较
[root@localhost stress]# docker run -tid --name cpu1024 --cpu-shares 1024 centos:stress stress -c 10


[root@localhost stress]# docker exec -it 5590c57d27b0 bash  //进容器使用top对比两个容器的%CPU，比例是1:2

三，CPU 周期限制

Docker 提供了–cpu-period、–cpu-quota 两个参数控制容器可以分配到的 CPU 时钟周期。
–cpu-period 是用来指定容器对 CPU 的使用要在多长时间内做一次重新分配。
–cpu-quota 是用来指定在这个周期内，最多可以有多少时间用来跑这个容器。
与 --cpu-shares 不同的是,这种配置是指定一个绝对值，容器对 CPU 资源的使用绝对不会超过配置的值。
cpu-period 和 cpu-quota 的单位为微秒（μs）。cpu-period 的最小值为 1000 微秒，最大值为 1 秒（10^6 μs），默认值为 0.1 秒（100000 μs）。
cpu-quota 的值默认为 -1，表示不做控制。cpu-period 和 cpu-quota 参数一般联合使用。
例如：
- 容器进程需要每 1 秒使用单个 CPU 的 0.2 秒时间，可以将 cpu-period 设置为 1000000（即 1 秒），cpu-quota 设置为 200000（0.2 秒）。当然，在多核情况下，如果允许容器进程完全占用两个 CPU，则可以将 cpu-period 设置为 100000（即 0.1 秒）， cpu-quota 设置为 200000（0.2 秒）。

[root@localhost stress]# docker run -tid --cpu-period 100000 --cpu-quota 200000 centos:stress

[root@localhost stress]# docker exec -it 98d2aaa50019 bash


[root@98d2aaa50019 /]# cat /sys/fs/cgroup/cpu/cpu.cfs_period_us
100000

[root@98d2aaa50019 /]# cat /sys/fs/cgroup/cpu/cpu.cfs_quota_us
200000

四，CPU Core 控制

对多核 CPU 的服务器，Docker 还可以控制容器运行使用哪些 CPU 内核，即使用–cpuset-cpus 参数。
这对具有多 CPU 的服务器尤其有用，可以对需要高性能计算的容器进行性能最优的配置

[root@localhost stress]# docker run -tid --name cpu1 --cpuset-cpus 0-1 centos:stress

执行以上命令需要宿主机为双核，表示创建的容器只能用 0、1两个内核。最终生成的 cgroup 的 CPU 内核配置如下：

[root@localhost stress]# docker exec -it 631eea630b21 bash

[root@631eea630b21 /]# cat /sys/fs/cgroup/cpuset/cpuset.cpus
0-1

通过下面指令可以看到容器中进程与 CPU 内核的绑定关系，达到绑定 CPU 内核的目的。

[root@localhost stress]# docker exec 631eea630b21 taskset -c -p 1    //容器内部第一个进程号pid为1被绑定到指定CPU上运行
pid 1's current affinity list: 0,1

五，CPU 配额控制参数的混合使用

通过 cpuset-cpus 参数指定容器 A 使用 CPU 内核 0，容器 B 只是用 CPU 内核 1。
在主机上只有这两个容器使用对应 CPU 内核的情况，它们各自占用全部的内核资源，cpu-shares 没有明显效果。
cpuset-cpus、cpuset-mems 参数只在多核、多内存节点上的服务器上有效，并且必须与实际的物理配置匹配，否则也无法达到资源控制的目的。
在系统具有多个 CPU 内核的情况下，需要通过 cpuset-cpus 参数为设置容器 CPU 内核才能方便地进行测试。

 宿主系统修改为4核心CPU
[root@localhost stress]# docker run -tid --name cpu3 --cpuset-cpus 1 --cpu-shares 512 centos:stress stress -c 1

[root@localhost stress]# docker exec -it 84598dfadd34 bash

[root@localhost stress]# exit




[root@localhost stress]# docker run -tid --name cpu4 --cpuset-cpus 3 --cpu-shares 1024 centos:stress stress -c 1

[root@localhost stress]# top   //记住按1查看每个核心的占用

Tasks: 172 total,   2 running, 170 sleeping,   0 stopped,   0 zombie
%Cpu0  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu1  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu2  :  0.0 us,  0.0 sy,  0.0 ni,100.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
%Cpu3  :100.0 us,  0.0 sy,  0.0 ni,  0.0 id,  0.0 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem :  7994072 total,  6394056 free,   450124 used,  1149892 buff/cache
KiB Swap:  4194300 total,  4194300 free,        0 used.  7174064 avail Mem 
[root@localhost stress]# docker exec -it 0eed2c8a20df bash

总结：上面的 centos:stress 镜像安装了 stress 工具，用来测试 CPU 和内存的负载。通过在两个容器上分别执行 stress -c 1 命令，将会给系统一个随机负载，产生 1 个进程。这个进程都反复不停的计算由 rand() 产生随机数的平方根，直到资源耗尽。
观察到宿主机上的 CPU 使用率，第三个内核的使用率接近 100%，并且一批进程的 CPU 使用率明显存在 2:1 的使用比例的对比。

六，内存限额

与操作系统类似，容器可使用的内存包括两部分：物理内存和 Swap。
Docker 通过下面两组参数来控制容器内存的使用量。
+ -m 或 --memory：设置内存的使用限额，例如 100M、1024M。
+ --memory-swap：设置内存+swap 的使用限额。
执行如下命令允许该容器最多使用 200M 的内存和 300M 的 swap。

[root@localhost stress]# docker run -it -m 200M --memory-swap=300M progrium/stress --vm 1 --vm-bytes 280M
####vm 1：启动 1 个内存工作线程。 
####vm-bytes 280M：每个线程分配 280M 内存。

默认情况下，容器可以使用主机上的所有空闲内存。
与 CPU 的 cgroups 配置类似， Docker 会自动为容器在目录 /sys/fs/cgroup/memory/docker/<容器的完整长 ID>
中创建相应 cgroup 配置文件

如果让工作线程分配的内存超过 300M，分配的内存超过限额，stress 线程报错，容器退出。

[root@localhost stress]# docker run -it -m 200M --memory-swap=300M progrium/stress --vm 1 --vm-bytes 310M

stress: info: [1] dispatching hogs: 0 cpu, 0 io, 1 vm, 0 hdd
stress: dbug: [1] using backoff sleep of 3000us
stress: dbug: [1] --> hogvm worker 1 [6] forked
stress: dbug: [6] allocating 325058560 bytes ...
stress: dbug: [6] touching bytes in strides of 4096 bytes ...
stress: FAIL: [1] (416) <-- worker 6 got signal 9
stress: WARN: [1] (418) now reaping child worker processes
stress: FAIL: [1] (422) kill error: No such process
stress: FAIL: [1] (452) failed run completed in 0s

七，Block IO 的限制

默认情况下，所有容器能平等地读写磁盘，可以通过设置–blkio-weight 参数来改变容器 block IO 的优先级。
–blkio-weight 与 --cpu-shares 类似，设置的是相对权重值，默认为 500。
在下面的例子中，容器 A 读写磁盘的带宽是容器 B 的两倍。

[root@localhost docker]# docker run -it --name container_A --blkio-weight 600 centos:stress
[root@bbb0a299c8fd /]# cat /sys/fs/cgroup/blkio/blkio.weight
600


[root@localhost docker]# docker run -it --name container_B --blkio-weight 300 centos:stress
[root@9f5062a35cec /]# cat /sys/fs/cgroup/blkio/blkio.weight
300

八，bps 和 iops 的限制

bps 是 byte per second，每秒读写的数据量。
iops 是 io per second，每秒 IO 的次数。

可通过以下参数控制容器的 bps 和 iops：

+ --device-read-bps，限制读某个设备的 bps。
+ --device-write-bps，限制写某个设备的 bps。
+ --device-read-iops，限制读某个设备的 iops。
+ --device-write-iops，限制写某个设备的 iops。

下面的示例是限制容器写 /dev/sda 的速率为 5 MB/s。

[root@localhost docker]# docker run -it --device-write-bps /dev/sda:5MB centos:stress

[root@96a5d7c68b96 /]# dd if=/dev/zero of=test bs=1M count=1024 oflag=direct   //可以按ctrl+c中断查看
906+0 records in
906+0 records out
950009856 bytes (950 MB) copied, 181.202 s, 5.2 MB/s

通过 dd 命令测试在容器中写磁盘的速度。因为容器的文件系统是在 host /dev/sda 上的，
在容器中写文件相当于对 host /dev/sda 进行写操作。另外，oflag=direct 指定用 direct IO 方式写文件，
这样 --device-write-bps 才能生效。

结果表明限速 5MB/s 左右。作为对比测试，如果不限速，结果如下。

[root@localhost docker]# docker run -it centos:stress

[root@10531445df8d /]# dd if=/dev/zero of=test bs=1M count=1024 oflag=direct
1024+0 records in
1024+0 records out
1073741824 bytes (1.1 GB) copied, 0.928611 s, 1.2 GB/s