奇技指南
在开发一款软件时，为了延长软件的生命周期，需要一款配套软件来对发布的软件进行监控。随着容器技术的成熟，系统的定制和软件的打包变得越来越容易，同时，对容器进行监控成为了容器使用者所必备的技能。下来，作者将带领大家认识一下容器的资源管理工具Cgroups。

说起容器监控，首先会想到通过Cadvisor, Docker stats等多种方式获取容器的监控数据，并同时会想到容器通过Cgroups实现对容器中的资源进行限制。但是这些数据来自哪里，并且如何计算的？答案是Cgroups。最近在写docker容器监控组件，在深入Cadvisor和Docker stats源码发现数据都来源于Cgroups。了解之余，并对Cgroups做下笔记。

01、Cgroups介绍

Cgroups 是 control groups 的缩写，是Linux内核提供的一种可以限制，记录，隔离进程组(process groups)所使用物理资源的机制。最初有google工程师提出，后来被整合进Linux的内核。因此，Cgroups为容器实现虚拟化提供了基本保证，是构建Docker,LXC等一系列虚拟化管理工具的基石。

02、Cgroups作用

资源限制(Resource limiting):
Cgroups可以对进程组使用的资源总额进行限制。如对特定的进程进行内存使用上限限制，当超出上限时，会触发OOM。
优先级分配(Prioritization): 通过分配的CPU时间片数量及硬盘IO带宽大小，实际上就相当于控制了进程运行的优先级。
资源统计(Accounting): Cgroups可以统计系统的资源使用量，如CPU使用时长、内存用量等等，这个功能非常适用于计费。
进程控制(ControlCgroups): 可以对进程组执行挂起、恢复等操作。

03、Cgroups 组成

Cgroups主要由task,cgroup,subsystem及hierarchy构成。下面分别介绍下各自的概念。

task: 在Cgroups中，task就是系统的一个进程。
cgroup: Cgroups中的资源控制都以cgroup为单位实现的。cgroup表示按照某种资源控制标准划分而成的任务组，包含一个或多个子系统。一个任务可以加入某个cgroup，也可以从某个cgroup迁移到另外一个cgroup。
subsystem: Cgroups中的subsystem就是一个资源调度控制器（Resource Controller）。比如CPU子系统可以控制CPU时间分配，内存子系统可以限制cgroup内存使用量。
hierarchy: hierarchy由一系列cgroup以一个树状结构排列而成，每个hierarchy通过绑定对应的subsystem进行资源调度。hierarchy中的cgroup节点可以包含零或多个子节点，子节点继承父节点的属性。整个系统可以有多个hierarchy。

组件之间的关系

Subsystems, Hierarchies,Control Group和Tasks之间有许多的规则，下面介绍下:
1、同一个hierarchy能够附加一个或多个subsystem。
如下图，将cpu和memory subsystems(或者任意多个subsystems)附加到同一个hierarchy。

浅谈Cgroups

2、一个subsystem只能附加到一个hierarchy上。
如下图，cpu subsystem已经附加到了hierarchy A，并且memory subsystem已经附加到了hierarchy B。因此cpusubsystem不能在附加到hierarchy B。

浅谈Cgroups

3、系统每次新建一个hierarchy时，该系统上的所有task默认构成了这个新建的hierarchy的初始化cgroup，这个cgroup也称为root cgroup。对于你创建的每个hierarchy，task只能存在于其中一个cgroup中，即一个task不能存在于同一个hierarchy的不同cgroup中，但是一个task可以存在在不同hierarchy中的多个cgroup中。如果操作时把一个task添加到同一个hierarchy中的另一个cgroup中，则会从第一个cgroup中移除。
如下图，cpu和memory被附加到cpu_mem_cg的hierarchy。而net_cls被附加到net_cls hierarchy。并且httpd进程被同时加到了cpu_mem_cg hierarchy的cg1 cgroup中和net hierarchy的cg3 cgroup中。并通过两个hierarchy的subsystem分别对httpd进程进行cpu,memory及网络带宽的限制。

浅谈Cgroups

4、系统中的任何一个task(Linux中的进程)fork自己创建一个子task(子进程)时，子task会自动的继承父task cgroup的关系，在同一个cgroup中，但是子task可以根据需要移到其它不同的cgroup中。父子task之间是相互独立不依赖的。
如下图，httpd进程在cpu_and_mem hierarchy的/cg1 cgroup中并把PID 4537写到该cgroup的tasks中。之后httpd(PID=4537)进程fork一个子进程httpd(PID=4840)与其父进程在同一个hierarchy的统一个cgroup中，但是由于父task和子task之间的关系独立不依赖的，所以子task可以移到其它的cgroup中。

浅谈Cgroups