fengdos 2019-12-11
今天为大家介绍的案例故障服务器型号为华为s5300服务器,需要进行数据恢复的服务器内一共有24块硬盘组成一组raid5盘阵,其中一块硬盘为热备盘。在服务器正常运行过程中有一块硬盘离线激活了热备盘进行数据同步,在数据同步的过程中服务器内另一块硬盘因为未知故障离线,导致服务器上层应用崩溃,服务器内的数据丢失。
·
接到客户服务器内所有硬盘后首先对硬盘进行逐一检测,发现除1块硬盘外其他硬盘均不存在物理故障。考虑到客户原始数据安全性,数据恢复工程师需要将所有硬盘进行镜像备份。
·
1. 分析服务器故障原因
由于华为s5300的控制器检查磁盘的策略相当严格,对于没有物理故障但性能不稳定的硬盘会当做坏盘踢出raid阵列。服务器数据恢复工程师检测到有一块硬盘存在物理故障,因此该服务器掉线的两块盘其中有一块是因为读写不稳定掉线。
·
2. 分析服务器内raid结构
针对服务器硬盘掉线数据恢复案例,想要恢复lun首先需要分析底层的raid结构信息,根据分析得出的raid阵列信息重组raid。服务器数据恢复工程师对每一块硬盘进行分析,得出了raid阵列的条带大小、数据走向、硬盘顺序、热备盘、数据库的分布规律等基础信息。
·
3. 通过校验排查服务器内被同步硬盘
根据已经分析得到的服务器阵列信息,数据恢复工程师使用自主研发的raid虚拟程序进行重组原始阵列,但是在重组过程中发现有一块硬盘内的数据被同步破坏,我们在数据恢复过程中需要将被损坏的硬盘排除,数据恢复工程师将所有硬盘进行底层数据结构对比,发现了其中一块硬盘在相同条带上的数据与其他硬盘明显不同,使用raid校验程序对该硬盘进行条带校验后确认该硬盘已被同步破坏。服务器数据恢复工程师重组raid阵列后分析lun在raid组中的分配情况及数据块map,只要能够完整的将map提取,即可借助数据恢复程序进行解析并恢复lun数据。
·
4. 提取服务器内数据库文件并修复数据库
服务器数据恢复工程师自主编写了文件系统解析程序对虚拟阵列内的文件系统进行解析,导出数据库文件后移交数据库数据恢复工程师进行校验和修复。
数据库工程师对数据库文件进行验证发现部分数据库文件及日志文件异常。表空间内存在大量坏块、所有控制文件被破坏,undotbs02丢失,数据库数据恢复工程师只好对数据库文件进行修复,修复过程见下图:
经过数据库数据恢复工程师对数据的修复和验证,最终成功恢复服务器内的数据库,服务器数据恢复工程师将修复成功的数据库数据导入数据恢复服务器进行验证,所有数据正常,联系客户进行现场数据验证均无异常,本次数据恢复服务器100%恢复。