如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

zhangdell 2019-06-30

如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

阿里妹导读:如何保障数据中心的稳定运行,是多年来一直困扰业界的难题。机房环境如果发生未预期变化,可能造成难以估计的损失。所以我们希望能构建一个“变更沙盘”,在真实变更之前,操作人员可以先在沙盘中进行试变更,若变更效果在预期内,再对真实环境进行变更,从而尽可能减少变更导致的机房故障。

近期,阿里巴巴-南大联合研究院联合实现并上线完成了一个高精度,可连接实时监控系统、基于CFD的变更沙盘系统。本系统在off-the-shelf CFD软件上实现了工业级精度的变更沙盘测试和验证。今天,我们就来观摩这个从零到一的尝试。

项目背景

随着阿里巴巴业务不断拓展,其数据中心规模也越来越大。相应地,数据中心内的日常演练、运营优化等变更操作越来越频繁;而规模增加导致环境的复杂程度呈指数增长,变更是否可能导致故障,仅凭专家经验,已经越来越难以判断。同时,数据中心变更故障可能造成的业务影响也越来越大,可能造成的损失已难以估计。所以,机房运营人员急需一个标准化的、可靠的机房变更安全验证系统,帮助他们获知变更产生的具体效果会是如何,是否影响生产安全,是否有更合理的变更建议。

对于电力变更,可以从电力拓扑图着手构建变更沙盘。但暖通变更,涉及到气流组织变化、热力变化,这些东西看不见也摸不着,传统的方式难以模拟出现实世界中的变化。IDC运营优化团队对此进行了一系列调研工作,认为利用计算流体力学(ComputationalFluid Dynamics,简称CFD)进行机房仿真是较为可能达到生产标准的一种方式。

现有的类似的解决方案

利用计算流体力学(Computational Fluid Dynamics,简称CFD)进行机房仿真是检查不同变更对机房的热力学影响的通用解决方案。CFD建模可以通过搭建物理模型,载入现实中的热力学设置(冷热量,空调server风速等)来计算一个包间内部的气流分布和温度情况。CFD模拟有较为成熟的技术积累,并被广泛应用与热力学和空气动力学领域。在数据中心领域,也有从包间到芯片级的CFD模拟应用。但由于其精度限制,一般只用于前期设计和规划。

如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

应用CFD建立沙盘系统的挑战:

1)现有商业CFD软件可以根据对包间进行仿真,得到机房的热力分布、气流动向。但该软件通常应用于设计阶段,采用设计阶段的粗略数据进行模拟,对真实操作情况的还原度较低,温度预测精度仅能达到3度或以上,不能满足用于变更沙盘的精度需求。

2)当前CFD软件以人工交互为主,缺少对自动化操作的支持,不能满足自动获取数据和返回结果的需求。大量的操作只能通过人机交互进行,效率低下。

3)建模所需要的数据真实性问题。由于模型的准确性与其所采用的模拟设置与实际是否一致息息相关,因此获取的模拟设置信息(如功耗,空调设置信息等)准确性非常关键。通常这些信息是在设计阶段确定的,也有部分是运行时获得的。这些数据只有进行精细的核实才能保证建模的精度(反过来建模的过程可以反推设计实施情况和数据的标准化过程)。

我们的解决方案

阿里巴巴联合新加坡南洋理工大学(NTU)计算机科学与工程学院文勇刚教授团队,依托阿里巴巴-南大联合研究院平台,通过接近1年的研究,开发和测试,实现并上线完成了一个高精度,可连接实时监控系统的基于CFD的变更沙盘系统。本系统在off-the-shelf CFD软件上实现了工业级精度的变更沙盘测试和验证。

本次项目选定了某个机房包间作为技术试点,并在对该机房的物理建模,模型校准和工程落地上进行了紧密合作。

1)物理建模:

该过程主要将包间内各物理结构设置到模型,提供仿真基础。以达到最好还原度为准则,我们实现了下面所述方面的建模操作:

结构建模:对机房结构、墙、通风口、天花板、管道进行设置

IT部署建模:机列、机柜、机位设置

环境建模:空调设备、传感器设置

设备建模:按厂商型号导入服务器模型

2)模型校准

模型校准的主要原则需要达到下述3个方面的真实还原:

机房冷热温度来源:校准中需要确认模型中冷热量与实际一致。

机房气流变化原因:校准中需要保证冷热风气流与实际一致。

温度测量数据:校准中需要保证模型预测温度与实际一致。

为了保证模型可以到工业级精度,项目团队进行了大量的数据核准和模型调整工作。这些工作全方位地对整个机房的相关信息和设置进行了梳理和核实,并形成了完整的标准化校准文档,为以后建模推广打下了坚实的基础。这些校准操作可以分为2类:

第1类:数据核准

服务器核准(包含:少数服务器U位冲突、服务器功耗校准)

传感器核准(包含:空调供风温度、转速和冷热通道传感器位置、数据)

第2类:模型调整

热气泄露设置调整,热气泄露会导致冷通道温度升高。

机柜模拟模式调整,设置为细粒度模拟模式。

Server风量设置调整,精确设置server风速以符合实际需求。

依托大量的传感器数据,通过上述校准操作,最终模型达到了设计阶段CFD使用未有过的精度。这些精度来源于我们精确地还原各项硬件的布置,各个操作的数据核准和细粒度的server风速校准。

3)工程落地

如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

如图所示为沙盘系统的流程图。在模型达到预期精度后,团队进一步解决了CFD模拟的自动化问题。通过接入阿里巴巴自研的数据中心实时监控系统(DCIM),我们获取到实时的服务器功耗、空调出风温度和风机转速等数据,通过6Sigma开放SDK将数据写入CFD模型,从而使得模型能够实时模拟包间内真实情况。此外,一旦仿真计算完成后,我们将计算结果从模型中导出,回传到监控系统,从而完成一次仿真计算的闭环。

如此,我们实现了将沙盘系统整合进入DCIM系统,并且全程操作可以自动化进行,为将来沙盘系统的应用和推广打下了坚实基础。

最终成果:

1)精度达标:模型采用真实的监控数据作为输入,并计算模拟的目标传感器测温与实际的传感器测温之间的平均绝对误差(MAE)来作为模型的准确性的测量依据。经过长时间观察(采用不同时刻的数据进行验证),模型模拟精度均能达到阿里巴巴数据中心建设标准要求。理论上可以替代冷热通道传感器,进行数据中心生产包间环境监控。

2)成功落地:目前该模型已经成功接入DCIM系统,可以自动从DCIM中抓取数据,返回结果。当前模拟的时耗为大约1小时,通过升级6Sigma License规格未来有希望提升到10分钟。接入该实时CFD模拟系统意味着阿里自研DCIM系统成为世界上唯一有高精度实时CFD模拟模块的数据中心云维管理系统。

变更沙盘系统的价值

包间可视化:由原来的2D、数字的方式,升级为3D、图形数字结合的展现方式,包括实际布局、热力情况、气流情况,从而可以让机房经理与设施专家能更直观、全面、迅速地了解机房的整体情况,更快发现包间暖通环境问题,辅助优化现场供冷分配与气流组织。

故障发现:可以厘米级别监测包间内的温度,快速发现温升(局部热点),从而具备更快、更强的风险识别能力,防止出现大范围的机房温升事件。

设计验证:建模过程所需要的物理设置信息通常决定于设计阶段。建模过程中得到的误差反馈信息可以直接验证设计与实施的差别。

设计优化(变更指引):沙盘系统可以模拟不同设计下数据中心的操作情况,从而可以用于设计上的优化和数据中心变更的先验平台。

暖通控制推荐:可以通过尝试不同空调设置应用到当前环境,得到温度控制最佳、能耗最低的空调设置,实现包间内供冷可靠、智能的控制。

业务调度推荐:根据详细的机房温度分布情况,结合功耗水位数据,可以向业务调度系统提供调度参考,使得业务分布更均匀,机房温度分布也更加均匀,降低制冷能耗,提升服务器健康度。

未来展望

未来合作的方向之一是对变更沙盘系统进行产业级推广和验证,目标是做出业界标准。使得变更沙盘系统可以应用与阿里数据中心的更多机房,去验证设计和优化管理控制。

未来,我们希望将系统沙盘推广到整个暖通系统,覆盖到机房外的制冷设备,实现全链条模拟。从而实现整个制冷系统的设计验证和控制优化。

综上,变更沙盘系统将可以显著促进数据中心设计到运维的自动化水平,为实现更稳定更高效的数据中心运维提供支撑。这是一次从零到一的尝试,我们构建了第一个可实时的、高精度的暖通变更系统,帮助数据中心运维人员能够判断一次变更是否可能造成故障,从而减少由变更导致的故障。进一步,我们可以给出具体的变更后环境变化,给出变更建议,甚至能够实现自动变更。如此,我们将离机房无人值守的目标越来越近。



本文作者:阿里&NTU

阅读原文

本文来自云栖社区合作伙伴“阿里技术”,如需转载请联系原作者。