数据中心运维管理 2013-09-07
概述
大家知道随着磁盘容量的增大,数据在RAID级别的存储可靠性受到了极大的威胁。其最为突出的问题是磁盘重构时间大为增加,对于RAID6而言三块盘坏的几率也大为增加,与此同时,应用性能在磁盘重构时也大为降低。这就是目前传统RAID所遇到的最棘手的问题,很多存储厂商都在想办法解决目前RAID所遇到的问题。针对RAID所遇到的问题,我想基本有两种解决方案,一种就是像当年从RAID5过渡到RAID6一样,为数据增加冗余信息,从而可以增强坏盘数量的容错能力。另一种方法是要改变现有RAID架构,使得RAID架构更加灵活,从而减少RAID的数据重构时间,降低RAID失效的可能性。在此,我对市场上的几种新型RAID进行了调研,在此总结一下。
推荐阅读:
中科蓝鲸的Smart RAID
中国科学院计算技术研究所存储中心是国内做存储技术的核心团队,其产业化公司是中科蓝鲸。前一段时间推出了一种比较新颖的磁盘阵列,专门应用于视频监控领域,这种RAID被称之为smart RAID。该RAID的示意图如下图所示:
从这张图中我们可以看出,该RAID的核心思想是将一个大RAID分解成若干个小RAID,当一个小RAID中发现错误块的时候,仅仅重构这个小RAID,而无需将整个磁盘上的数据全部重构一遍。这种做法显然带来了一个最大的好处,减少了重构时间。其实,这种方法是有理论根据的。人们发现绝大部分的磁盘坏不是整块磁盘损坏,绝大部分情况是部分磁盘上的块出现了问题。基于这种发现,我们可以采用部分重构的方法替代整块磁盘重构,所以,这种解决方案原有的RAID分成了若干个小RAID。看似这种解决方案比较完美,但是,还是存在一些问题,如果整块磁盘损坏了怎么办?如果预留的空闲区域不够用怎么办?如果空闲区域存在坏块怎么办?如果同时有几个小RAID在做数据重构,性能会怎么样?所以,个人以为这种方案灵活性还是不够。由于中科蓝鲸的磁盘阵列是在视频监控领域应用,对数据的可靠性要求不一定很高,但是对持续数据流写性能有很高的要求,因此,这种方案比传统的RAID5更能满足视频监控的应用需求。
Quantum Dynamic Disk Pool
Quantum有一种和传统RAID有所不同的RAID技术,这种技术被称之为Dynamic Disk Pool。其核心思想可以采用下图进行描述。
图中,不同颜色的酷块组成了一个小RAID,这个和中科蓝鲸的优点类似,即采用局部块构建传统RAID。这种思想都是基于新型坏盘模型提出来的。所不同的是,每个小RAID都会有自己的Spare D-Piece,并且针对不同的小RAID,这些Spare D-Piece会分布在不同的磁盘上,也就是分布式空闲块的思想。这种做法的好处是显而易见的,如果有多个小RAID在同时重构数据的时候,所有重构数据将会分布到多个磁盘上,而不会集中在几个固定的磁盘上。这种解决方案不仅利用了局部重构的思想,并且将空闲块分布式,获取最大的重构性能,从而减少重构时间。
这种解决方案的问题是,一旦一个磁盘被剔除RAID,一个新盘被加入之后,空闲快将会集中在新加入的盘上,分布式的空闲空间随着磁盘的替换而变得不存在。如下图所示,前图是替换之前的数据分布,后图是数据重构之后,新盘加入之后的情景。
为了解决上述问题,有些解决方案为了获取分布式空闲空间带来的好处,会考虑进行一些数据迁移操作,但是会影响系统性能。