观点 | 为什么说云主机比物理机故障率更低？

本文根据高效运维系列微信群的嘉宾分享整理并发布。「高效运维」公众号作为本系列群的官方唯一公众号，原创并独家首发。OneAPM 授权转发。

编辑

徐凯强@和信-北京（内容收集、发布）

作者介绍

邱模炯

UCloud 平台开发中心总监，北京大学计算机系研究生毕业，擅长操作系统、虚拟化和数据中心自动化等云平台的基础技术。

引言

很多朋友对云平台可用性有所担心，认为用物理机更加放心。今天我想就这个话题抛出个人看法。希望对大家有参考意义。先抛出结论：

从业务程序的角度，云主机的可用性可以做到比物理机高，即故障率更低（可用性和故障率接近但不是一个概念，为了便于阐述，下面只讨论故障率）。

我见过很多客户抱怨云主机的故障率。同时，我也见过并且帮好几个使用物理机的客户解决问题：

他们没有专业团队及大规模环境，对于复杂点的软硬件故障几乎束手无策，有时甚至解决的过程把小问题变成大问题。

这也是我今天分享这个话题的动力。下面进入正题，下图是云主机和物理机软硬件层次对比：
观点 | 为什么说云主机比物理机故障率更低？

影响云主机故障率的主要因素有：

服务器硬件质量
宿主机内核
虚拟化层（KVM+QEMU 或 Xen）
Linux 内核（承载业务程序）

影响物理机故障率的主要因素有：

服务器硬件质量
Linux 内核（承载业务程序）

从上面的对比看，云主机比物理机故障率貌似要高，因为虚拟化层和宿主机内核非常复杂，引入额外的故障率。这是直觉，而且很有道理：

AWS 去年就因为虚拟化层内核的安全漏洞大规模重启了物理机，多数 AWS 用户受影响。虚拟化层和宿主机内核的 BUG 也会同样造成宕机及重启。

那为什么还说云主机故障率可以低于物理机呢？

备注：这里我是从终端用户的角度看的，“从厂商购买的”物理机，来对比「从云平台购买的」云主机。

原因在于：简单来说，云平台厂商往往管理几万几十万台物理服务器，并有比较专业的基础运维团队和内核团队，可以在故障率上做大量的工作，以达成这样的效果：

虚拟化层和宿主机内核的故障率接近 0。这两层是内核，通过内核优化来达到；
服务器硬件质量可以不断提升；
承载业务程序的 Linux 内核，云平台可以帮助用户进行维护。并解决 BUG，修复安全漏洞等。

有人会说，我自己购买的物理机也能做上述优化，效果比云主机更好。真的是这样的么？现实情况是：

绝大部分公司管理的服务器数量不多，不足以建立相应的团队；同时因为服务器数量少（比如不到万台），做软硬件优化的环境不理想。

下面就上述要点展开。

虚拟化层和宿主机内核的故障率如何降低？

这主要通过自主掌控虚拟化层和宿主机内核，这整套内核来实现。

1. 自主维护Linux内核

商业 Linux 发行版（如 RHEL6.X）的内核其实有不少 BUG，因为内核太庞大、太复杂，BUG 修之不尽而且不断涌现，只要内核有人在改动，更多的 BUG 就还在路上。

但我们自己维护的 Linux 内核，我们可以迅速修复并应用进实际环境，不像商业 Linux 要等待较长的发布周期。

我们还可以预先研究别人犯过的错误，把更新补丁打入现在的内核；还可以屏蔽不必要的特性和改动避免 BUG 的引入。

简单讲，自主维护内核很灵活，最终质量不低于商业 Linux 发行版。国内有海量服务器的公司如腾讯和阿里都运行自主维护的 Linux 内核。

2. 免重启热补丁技术

这是指通过二进制指令修改的方式修改 Linux 内核达到修复的目的。

结合自主维护 Linux 内核，如果发现了 BUG 并制作修复补丁后，可以免重启应用到生产环境的 Linux 内核里。

这点目前主流 Linux 厂商不提供。但云平台厂商可以自己做。

3. 热迁移技术

特殊情况下的热迁移，可规避尚未完全定位的内核问题。

这三点的综合效果，使得某些云厂商，因为内核原因造成的宕机低到可以忽略。几万台服务器半年可以减少到一两次。

可能有些早期用户应该比较有感觉，几年软件宕机不少，给客户推送的故障报告不时就和内核有关，但经过一年半载的工作后，现在几乎没有了。