精简云端数据的策略有哪些?

丁启民 2011-11-14

但在云中,情况就完全不同了。如果我们保留太多没啥价值的数据或者文件副本,那么庞大的支出会以两种方式接踵而来。首先是每个月的存储开销,其次则是在涉及搜索、视图、报告以及仪表板升级时由此带来的性能低下。在云中,修整数据集的确能够带来切实的效益。

目前的首要议程是对问题做出评估:我们的存储体系中主要是文档,还是表格数据?二者通常会带来不同类型的存储限制,用于应对它们的策略及工具也颇有差异。

文档通常作为记录的附件存在(例如常常被附于相关业务之后的合同签署PDF文件),因此用户往往很难快速将其找出。这种特性使得同一份文档可能经常会被三到四份不同的记录同时调用。我们还需要找到那些短期进行过数次修改的多个文档版本。首先要做的是将系统中的每份文档归纳起来,形成一份输出列表(包括文档归附的ID记录以及最后一次更新日期等),并利用电子表格过滤器找出重复的文档。有专门的重复文件检测工具,能够在这方面帮上大忙(通过检测文件内容);但在云中我还没听说过哪种工具能实现同样的功能。除非大家愿意把所有文件下载到自己的本地服务器上并深入加以分析;要用这样的方式修整文件,我们将面对极为繁重的工作量。由于光存储介质非常廉价,我们还不如直接把云中的数据归档,再把云存储整体清空,免得将来有人抱怨。

表格数据则完全不同,因为不同类型的云在处理此类数据时会采用许多与系统有关的特定方式与技术。也就是说,常见处理流程如下:

•确定自己的哪一套云系统确实存在存储问题。某些系统(例如财会系统)完全无法加以修整,因为相关工作人员需要经常审核并保存好长期以来的全部细节信息。其它系统(例如营销自动化或者日志分析系统)如果在运行时经常在短时间内收集大量细节信息,它们就是导致系统拖慢的罪魁祸首。

•确定哪些表格消耗掉了我们总存储量的20%以上。它们就是修整的重点。

•针对每个表格,了解各项单独记录的价值。有些表格(特别是账户或者合同)几乎完全不能加以改动,因为它们的内容非常重要而且一旦被清除将造成很大影响(尤其是当这些表格与外部系统集成起来时)。其它表格,例如“匿名信息”,尤其是营销自动化系统当中的那些则往往可以恣意处理。

•在采取进一步措施前,在磁盘或者光介质上先对云中的数据进行一次整体备份。我在这里以最郑重的态度提醒各位:这一步骤绝对不能忽略。

•对于那些可以随意修整的表格,先评估一下其“信噪比”(即有用信息与无用信息之间的比率)。有哪些信息由于年深日久而已经变得完全没有价值了?举例来说,在营销自动化或者网页监控云中,我们有谁会真的在意某位匿名访客已经六个月没有再次出现了?将所有分数为负的内容删除有何不可?我相信大家一定希望先对受影响的用户进行全面分析,不过请记住,以信噪比方式修整数据的最终目的是为了在短时间内迅速清理数以百万计的记录。

•有些表格的信噪比结果良好,但其中所存储的诸多细节也没啥存在的必要。举例来说,许多营销自动化以及电子邮件推送系统使用活跃表格来记录重要的邮件及网页交互行为。这些活跃表格可能会占用一半的系统存储空间。但是某个人一年前的今天看了视频A、前一天则看了视频B,这种信息能有多大意义?大家不妨使用这样一种评判标准:如果某种特定的细节不会改变任何人的决定或者行为,那么它就不算是“信息”。有鉴于此,我们建议采取一种压缩的方式:保留该信息,但清除六个月及之前的各类细节。历史记录通常被存储为自定义表格、描述标签、代表性字符串甚至位图这些对存储空间要求较低的形式。要对其进行修整需要缜密的思维、用户输入以及自定义代码开发,虽然过程不容易,但最终我们会获得一套以信息价值为主导的连续修整机制。

•有些表格(尤其是信息与联系人方面的)往往会迅速收集大量重复信息,特别是大家的公司已经具备了一套专门处理信息与联系人事务的系统。如果大家的云系统支持重复数据删除工具(一般来自主流服务供应商或者第三方),不妨买一套口碑好的并真正掌握它的用法。最理想的工具都拥有模糊逻辑算法,能帮我们在不移动云中数据的前提下找出并合并重复信息。整个合并过程会尽量保留数据,但如果各位的云中存在大量数据冲突(例如为同一位联系人存储了两个完全不同的手机号码),我们恐怕需要为此建立阴影区域并将不同的数据在合并之前填充进去。出于多少复杂的原因,数据合并工作必须分阶段进行:它会占用大量的CPU处理时间,也会给我们的头脑增添不少负担,不过说到底,它也能清除以十万计的重复信息。千万别太过躁进,合并这种工作可是没有撤销功能可用的。

相关推荐