业余架构师 2016-02-03
大家好,我是青云的 lester ,目前负责青云QingCloud 的超融合产品系列。今天由我向大家分享 QingCloud 对超融合架构的理解,以及在超融合架构方面的实践经验。
今天分享的话题主要分三部分:
1、什么是超融合架构。
2、从数据中心的发展趋势分析为何要使用超融合架构。
3、青云QingCloud 超融合架构的特点。
首先、我先介绍一下,什么是超融合架构。
超融合架构是近 2 年来非常热门的词汇。但其实超融合的概念并没有一个非常严格的定义。以目前较为广泛接受的观点来说。超融合基础架构(Hyper-Converged Infrastructure,或简称“HCI”)是指在同一套单元设备中不仅仅具备计算、网络、存储和服务器虚拟化等资源和技术,而多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(Scale-Out),形成统一的资源池。
超融合架构类似 Google 、Facebook 后台的大规模基础架构模式,可以为数据中心带来最优的效率、灵活性、规模、成本和数据保护。
由此可见,超融合架构是一种技术手段,而并不是某一类特殊的硬件产品。而目前市面上,很多硬件厂商将超融合架构与高密度服务器统一包装宣传,由此造成了很多误解,似乎只有多节点高密度服务器才是超融合。
这里正好可以回答先前大家提出的一个问题 “超融合,听起来就是以前的刀片机,不知道从架构、用途、扩展性上有什么本质上的提升吗?”
其实,超融合架构要达到的目的之一,就是现实软件与硬件的解耦。使用通用的服务器实现,传统架构下使用专用硬件才能达到的功能。
数据中心发展到现在主要经历了 3 个阶段:
1、孤岛式的数据中心
其架构是 90 年代中后期形成的,以大型机、小型机、大型数据库、集中式存储加上高可用软件组成的架构,这种架构适应了当时的数据大集中趋势。它也是数据中心进入萌发发展阶段的标志。采用集中的方式配置硬件支援,再由专用的物理服务器为特定的应用程序提供支持。
传统 IT 厂家在这一阶段得到了飞速的发展。因为集中的部署方式必然会带来对硬件产品的性能、可靠性及扩展性需求的增加,促进了高端设备的销售。
但是企业随着应用的增加, IT 系统已经成为企业不可或缺的生产系统,同时互联网发展带来的爆发性数据增长。这种孤岛式的数据中心架构的弊端也随之产生。
首先,应用的可靠性,严重依赖于硬件提供的RAS特性。导致硬件产品规格不断的提供,硬件采购成本极为高昂。
其次,烟囱式建设,离散式管理;设备种类繁多,运维难度大,运维的成本也随之增长。
最后,物理设备部署周期长,严重影响系统上线进度;资源调度不灵活,大量系统等待扩容,同时大量系统资源利用率严重不足;浪费严重,机房空间难以为继。
2、虚拟化数据中心
2003 年服务器虚拟化技术的出现,以 VMware 为代表的软件厂商带领数据中心由物理硬件数据中心向虚拟化数据中心转变。由此从 2003 年开始,数据中心进入了第二个阶段——虚拟化数据中心。
虚拟化技术提高了服务器的资源利用率,并通过 VM 在线迁移(例如 VMware Vmotion)技术大大降低了数据中心对服务器 RAS 特征的依赖。服务器虚拟化技术的大规模应用直接导致了应用由 Unix 小型机平台迁移至 X86 + 虚拟化 + 集中存储。而 X86 刀片服务器 + VMware + EMC 存储阵列的架构成为这一时期数据中心的主宰。
服务器虚拟化的应用对底层硬件的影响有两个方面。
1、服务器本地存储可以极度简化,只需要安装虚拟化软件即可。因此刀片服务器非常适合这种架构。每个刀片只需配置 1-2 块硬盘。再通过 HBA 卡连接集中存储即可。
2、存储。服务器虚拟化的 HA 功能极度依赖于外部磁盘阵列,由此极大的促进了 FC SAN 存储的销售,这也是 EMC 控股 VMware 的一大原因。
随着互联网的不断壮大,越来越多的业务需要互联网化,传统的虚拟化数据中心逐渐不能适应业务发展带来的变化。这是由于虚拟化数据中心仅仅解决了服务器资源利用率和高可用性的问题,但是计算与存储分离,只能通过专用的 FC SAN 网络访问存储资源的方式又带来了新的问题。
第一是扩展性问题。磁盘阵列的扩展性通常采用 Scale UP 的方式扩展,在规则生产制造时就已经决定。存储设备之间的数据迁移非常困难,这也导致了性能孤岛和数据孤岛的出现。
第二是可靠性问题。虚拟化加集中存储的架构,非常依赖于存储的 RAS 特性。存储设备故障将导致整个虚拟机资源池的停机。
第三是性能问题。VM 的 I/O 性能完全取决于后端存储的能力。而单一存储的 I/O 性能是有明显上线了。目前的主流存储设备均采用双控制器的架构,为了保证可靠性,每个控制器的资源使用率不可能太高,且端口和缓存都需要镜像使用,以确保单个控制器故障的时的业务连续性。
第四是运维问题。各个厂家的存储设备是互不兼容的,每种设备都需要专业的运维人员。 IP 网络与 FC SAN 也是完全孤立的,加大了运维的工作量。有人会说,存储虚拟化是不是能解决这个问题?存储虚拟化确实可以简化存储阵列的部分管理难度,但由于存储虚拟化设备又是一种新的专用硬件设备。又在存储网络上增加了一层复杂性。就像很多厂家采用级联方案管理集群一样。 这并不能降低整个架构的复杂性。在大规模部署的时候反而会带来新的问题。
最后一点就是成本。对专用设备的依赖显著的增加了基础设施的成本。还是以存储设备为例,世界上生产机械硬盘的厂家主要就是希捷和西数(包括收购的HGST)存储厂家通常会对硬盘进行 Lock-In ,必须使用专用的硬盘才能对存储进行扩容,相同规格的硬盘在盘阵中的售价会是通用服务器的数倍。为确保磁盘阵列的高可用,通常的办法只有买 2 套,甚至 3 套相同配置的阵列,再通过专用的同步复制或异步复制确保数据的高可用性。而存储复制软件通常又会以 TB 的方式授权。如果更换了阵列厂家,这些复制软件的费用又等于白费。
3、软件定义数据中心
如果继续不做改变的话,企业的 IT 成本就太高了,于是企业开始寄希望于分布式的架构,有了一个很火的词——去 IOE 。其实去 IOE 本质是分布式架构替代传统架构的IT架构的变革,互联网企业是这场革命的先锋。从 2011 年至今,数据中心开始向以云计算技术为代表的软件定义数据中心发展。
要实现云计算的发展,进行异构硬件系统的融合是必须解决的问题。传统服务器虚拟化技术只能在专用的硬件设备上实现资源的虚拟化和管理,并没有彻底实现硬件资源与虚拟化管理软件之间的解耦。这使得存储虚拟化这类技术并不适用于大规模的虚拟数据中心环境。比如,企业如果想将传统的 IT 基础架构改造为虚拟化的云计算数据中心,在技术上和经济性上都是不可行的。
而采用软件定义的技术,将计算、存储、网络与专用硬件实现解耦才能实现 IT 基础架构的真正融合,为云计算数据中心的实施与部署扫清最后一个障碍。从 2011 年左右起,软件定义的数据中心首先出现在互联网公司,其代表是 AWS 、Google 等新时代的 IT Vendor 。
下面我借用几张图片说明一下新一代数据中心的特点。
软件定义数据中心的概念围绕让三个数据中心的重要基础设施(服务器,网络和存储设备)变得更为灵活,更自动化,并且更少依赖基础物理硬件。以亚马逊为代表的真正云计算服务商均基于标准化的通用 X86 服务器通过软件定义的数据中心向用户提供计算、网络和存储服务。
软件定义数据中心(SDDC)技术是构建大规模云计算服务的基础,为数据中心带来最优的效率、灵活性、规模、成本和可靠性。可以说,这是实现 “真正的云计算” 所必须的技术之一。
我们知道 “云” 这个字已经被无数的厂家和产品所劫持了。前几天朋友圈有个传播很广的段子。某厂家 10 年前卖给你一台服务器叫“电子商务”;5 年前卖给你一台服务器叫 “智慧XX”;今天卖给你一台服务器叫 “云计算”;明天还是卖给你一台服务器叫 “大数据”。
而 “真正的云计算” 对数据中心的基础架构是有巨大影响的。前段时间 Wikibon 的分析是 对 “True” Private Cloud Definition 进行过分析。(大家有兴趣的话可以参考 http://wikibon.com/true-private-cloud-will-begin-shipping-to-the-market-in-2016/)其认为 2016年将是真正云计算落地的开始。下面分享一张被广泛引用的图片。同样来自于 Wikibon 2014 年的分析报告。
以软件技术取代专用硬件也是数据中心基础架构的发展趋势,以 EMC 为代表的传统集中存储架构已近黄昏(图中红色部分),传统的 DAS 、 NAS 和 SAN 因为其成本高昂、技术要求高、使用复杂且可灵活性差,将逐步被客户所抛弃。
而提供云计算服务的大型机构或公司如 Google、亚马逊、微软等采用的超大规模融合架构以及软件定义存储架构会给企业用户的 IT 架构带来各种灵活性、安全性和成本优势,使得其部署与使用进入高速发展期。
2015 年中,传统存储行业老大 EMC 被服务器厂家 DELL 收购成为这场技术变革的标志性事件。于此同时,传统虚拟化厂家 VMware 也推出了 VSAN 软件用于替代昂贵且过时的集中式存储设备。而存储市场表现也印证了这一趋势,2015 年第三季度全球企业存储系统市场营收同比增长 2.8% ,规模达到 91 亿美元。但是....
这是来自于IDC 2015年Q3对磁盘存储市场的统计报告
市场营收规模增长最主要的动力来自于超大规模数据中心和基于服务器的存储两大领域。以直接面向超大规模数据中心用户销售的 ODM 位列,该业务同比大幅增长 23.4% ,达到了 13 亿美元;而基于服务器端存储销售也实现了同比 9.9% 的增长,达到了 21 亿美元的规模。外部磁盘存储市场仍然是全球企业级存储市场最大的细分市场,不过本季度该市场出现了同比 3.1% 的下滑,规模为 58 亿美元。
红圈部分的 ODM 厂商的增加大部分就是为云计算厂家提供的通用服务器。
包括青云在内的真正提供大规模云计算服务的厂家,均采用了超融合架构+通用服务器的方案,为大量的用户提供计算+网络+存储的服务。
因此采用超融合架构提供云计算服务已经是一个明显的趋势。其特点是通过软件帮助用户将服务器、网络、虚拟化等整合为一个易于管理的集成系统,并通过自动化运维减少手动操作,提高安全性和降低人为错误,从而降低实施和运维风险,并降低运营成本。而 QingCloud 提供的超融合系统又有别与传统的超融合架构。
最早的融合系统其实是物理堆砌的概念。将服务器+网络设备+存储设备打包交付给用户。其代表是传统 IT 厂商推出的各种 Block 方案。
这一代的融合系统主要为用户解决了快速交付和配置优化问题,但从使用上来说,和用户自己搭建的系统并无明显区别。
而第二代的融合系统是以超融合设备厂家为代表的方案。虽然这类厂家号称自己使用了 AWS、Google 等使用的分布式存储技术,并将之用于传统企业。 但其本质上仅仅是将分布式文件系统打包销售的方案。其关注点主要还是在用分布式存储替换集中存储上。其特点如下图:
要真正地使用这类设备,其实还需要上层的服务器虚拟化+网络虚拟化+云管理平台+云服务平台等模块的配合。而 QingCloud 的超融合系统,是集成了 QingCloud 公有云的完整功能,达到开箱即用、一步到云的目的。
我们的初衷是为了帮助客户更快、更灵活、更低成本的将云计算能力落地到自己的数据中心。
因此,QingCloud 的超融合系统不绑定任何的硬件设备。无论是我们提供的一体化硬件还是第三方的服务器都可以形成一个统一的集群。相对于友商的方案,我们有几个优势:
软件架构经过了 QingCloud 公有云的大规模验证;
单一系统可提供与 QingCloud 公有云一致的功能;
与公有云保持相同的软件版本,为用户提供无缝迁移到混合云及公有云的方案;
不依赖于 SSD 即可提供高性能的存储;
极致的 SDN 2.0 功能(见链接)。
——————————
QA
1、咱们超融合和 SMARTX、深信服的底层架构有啥区别优势是什么?
答:这个问题刚刚我的分享中其实已经回答了。QingCloud 超融合是经过了大规模验证的成熟系统,其扩展能力、可靠性、性能时时刻刻都经受着用户的考验。任何用户都可以登录我们的公有云进行验证。
我们承诺的扩展能力、可靠性、性能都是公开透明的。同时 我们提供的是完整的云计算服务能力。分布式存储仅仅是我们的一小部分功能。
另外 我们的存储也无需采用 SSD 即可满足大部分应用的 IO 需求。当然 我们也支持 SSD 的方案和 SSD 缓存的方案。
在硬件设计部分,我们有更优的可靠性设计。包括 OS 盘高可用、本地盘高可用。普通的硬盘损坏 无需依靠网络进行数据重构。
在性能方面。采用 12 个 10K 的 SAS 盘,即可提供 85,000 以上的 4K 随机读性能。
2、超融合除了在数据中心的使用场景外,在公安、海关、税务等政府行业有哪些细分的应用场景?
答:超融合架构可以适用于绝大部分的企业应用。我们已经在公安部的某局将超融合一体机应用于其内部的大数据项目。对于用户来说,实现了云计算与大数据处理的资源共享。用户直接调用QingCloud 的 Spark/Hadoop 服务,在 QingCloud 超融合上快速地部署大数据应用。
3、超融合,听起来就是以前的刀片机,不知道从架构、用途、扩展性上有什么本质上的提升吗?
答:超融合只是一种架构设计,并不依赖于某种硬件设备。但是从硬件优化的角度来说。我们要求服务器有较多的本地盘,从而让尽量多的 IO 在本地就实现了访问。
刀片机从设计上太过于复杂且昂贵,其集成的交换机、机箱管理模块等设备是不适合超融合架构使用的。目前有很多厂家选取了 2U 4 节点的设备作为超融合的物理节点。但其实 2U 4 节点的服务器早在 5 年前就已经面世。由于当时的万兆网络和分布式存储并不普及,所以其定位比较尴尬,既没有刀片的集成度高,又没有全宽机架式服务器的扩展性好。
这类服务器的特点是,在同一个机箱内集成了多个独立的服务器,并共享电源,达到提供部署密度并降低能耗的目的。其并不集成网络交换机和机箱管理等模块,因此每个节点的成本得以降低,2U 4 节点只需要 2 个电源就行了。会比 4 台独立服务器更加节省电力。因为 4 个节点共享 2 个电源提高了电源的负载。电源负载在 50% 以上的时候有更优的转换效率,通常会比 4 台服务器节省 16% 以上的能耗,但是青云并没有选择 2U 4 节点的硬件方案。因为 2U 4 有几个比较明显的缺陷。
2 个冗余电源通过一个电源背板供电 4 个节点。一旦发生电源背板损坏, 4 个节点全部掉电。这对于分布式架构来说等于是放大了节点失效的风险,从而需要更多的节点来进行冗余。
2U 4 节点服务器本地盘太少。通常每节点只有 6 个 2.5 寸盘或 3 个 3.5 寸盘。通常的厂家会采用内置的 SATA DOM 安装 OS,前面板 6 个盘放用户数据的方案。但这就造成了 OS 盘的单点故障。经过我们在公有云上的验证,SATA DOM 的可靠性远低于 SAS 盘。这等于放大了节点失效的风险。 因为多副本只是针对数据盘的保护,并不能保护 OS 盘。
从成本角度来说。系统的成本是一致的,太少的本地盘无异于增加了每 TB 存储的硬件成本。
从性能角度来说,6 个盘的空间太小,只要 VM 一多就不可避免的会发生频繁的跨节点访问。这对于大规模部署来说是致命的。
4、RAS 是 Reliability, Availability, Serviceability 的缩写吧?
答:是的。
5、关于存储有个问题,目前系统集成项目上对于存储的采购一般按照 110% 到 120% 进行,采用云存储架构以后是否要按 300% 进行采购?
答:首先从成本的角度考虑,就算采购 2-3 倍的本地盘,其成本也比集中存储有优势。从整体拥有成本的角度来说,其后期的服务费用也低于集中存储。
其次从可靠性来说,集中存储要实现高可用,也至少需要2台同等配置。
所以集中存储的采购,在考虑 HA 的情况下,也至少需要 200%。另外还需要同步软件的授权。
6、这里有个疑问,如果是 Cisco UCS,Director 软件分摊下来的成本也是不低的,我们测算过要 40 个以上的刀片才能跟机架服务器相比有优势。
答:这个问题很好。刀片的成本优势通常只能子在满配的时候才会比机架式低。从高可用的角度考虑,我们推荐用户将节点进行跨机柜部署。所以刀片这种架构的灵活性就很差了,而且其存储空间依赖于集中存储。所以并不适合分布式的存储架构。
7、这么看来数据中心仅仅需要两台或者多台核心交换机加超融合一体机即可构建数据中心了 这种架构还用得着核心交换机么?
答:根据实际的部署规模,可以选择单层还是双层的网络架构。如果规模小,只部署一层三层万兆交换机即可。由于 QingCloud 是完全不依赖于硬件功能的 SDN 设计,所以可与选取最廉价的万兆交换机做互联。以我们通常的部署环境为例。我们推荐用思科 3064 或者华为 6300 级别的的 48 口全万兆交换机即可。
我们公有云环境的部署规模比较大,所以采用了 2 层接入 + 3 层核心交换的架构,但都不用采用高端的交换机。
8、请问在超融合架构下,企业现有的 SAN 还能用吗?怎么用呢?
答:QingCloud 超融合的新版本支持用户既有的 SAN 存储环境,但这仅仅是为了实现用户的利旧需求。我们并不推荐在新环境上部署 SAN 存储,其原因之前已经解释过了。
9、问下和 Nutanix 等厂商产品的特性区别。
答:这个同问题一。Nutanix 只是分布式存储,当然其也在试图向上提供 KVM 和 OpenStack 等服务但其优势并不在此。同时 Nutanix 采用的是硬件锁定的策略。相信接触过 Nutanix 的用户都知道这种硬件锁定的成本非常昂贵,其扩容只有购买指定硬件一种途径。
10、性能如何?比如单台服务器,大概什么配置能提供大概多少 IOPS ?
答:这取决于单节点的配置。 如果只看考虑 IOPS 。 那么在 12 个 10K SAS 盘的情况下,可提供约85000 的 4K 随机读 IOPS 。 更多的磁盘有助于提高性能。 但我们也不推荐单节点 48 盘这样的方案。 密度太高这无异于增加了节点故障时影响的 VM 数量。
11、您建议节点分布在不同机柜,请问可以延伸到数公里或数十公里布署吗?
答:这取决于网络延迟,采用光纤直连的话,10 公里的问题不大。青云QingCloud 公有云的北京三区分为 3 个同城的高可用数据中心,目前就是采用光纤直连的方式构成。
12、软件定义存储采用的核心技术是哪家?比如 VSAN ? 还是自研?备份机制?消重支持如何?
答:青云QingCloud 的所有主要技术均是自研的,100% 属于自主可控产品。提供数据快照功能和全备,增备等功能。
目前不在块存储上提供消重功能。 这类功能是需要占用 CPU 资源的,服务器本地的硬盘已经足够便宜,从成本来看并不值得消耗 CPU 去做消重。这些 CPU 资源更适合释放给 VM 和 SDN 使用。另外分布式系统的依赖于数据的冗余来提供更高的可用性,消重其实更适合集中存储设备。
13、第二代和第三代的超融合,能否从用户使用的角度解释下?
答:第二代超融合的核心在于提供分布式存储功能,只是用于替换集中存储方案。第三代超融合,提供了完整的云计算环境。用户无需再购买服务器虚拟化,网络虚拟化,云服务平台等软件。 实现了开箱即可提供云计算服务的目的。
14、采用万兆网络交换机还是infiniband交换机?
答:目前主要采用万兆网络互连。
15、为什么 1.8 寸的 SSD 在服务器领域没有流行呢?
答: SSD 的寿命和性能和容量是有关系的。越小的 SSD 性能和寿命也越小。而且这种小众的产品没有成本优势。
16、请问是一份数据同时在三个服务器上写吗?单个服务器的磁盘还做 RAID 吗?
答:这个可以根据需要使用单副本、双副本还是三副本。这是成本、性能、可靠性的平衡。可以依据不同的业务需要部署不同的副本策略。例如,我们提供的对象存储服务就是默认 3 副本。
单个服务器磁盘可以选择做或者不做 RAID 。我们建议做 RAID 并配置缓存和缓存保护模块。这样有利于提高单节点的 I/O 性能。另外我也建议采用直通背板的服务器。这样 SAS HBA 可以为每个硬盘提供至少 6Gb 的带宽,并且有助于降低 I/O 延迟。
17、超融合能实现数据容灾功能吗?
答:青云QingCloud 超融合可以实现本地及异地数据容灾。 并且可直接利用 QingCloud 公有云实现数据容灾,而无需用户真正去自建或租用数据容灾的数据中心。用户可以将私有云环境中的数据,备份到 QingCloud 的公有云。