基于AI的存储正在帮助企业从数据中获取更多信息

DSFG 2020-10-22

如果你能够把存储想象成一辆自动驾驶汽车,而不是一个需要亲自动手的、劳动密集型的必需品呢?如果是像自动驾驶汽车一样,你的存储基础架构也能够预测你需要什么,并在道路上进行路障导航呢?

根据你对新技术的容错性和你公司的文化,你可能已经利用了从应用程序的行为中学习、识别应用程序和配置中的异常并使用这些信息来预测和预防问题的技术了。

基于AI的存储正在帮助企业从数据中获取更多信息

为这些核心技术赋能的正是人工智能。事实上,人工智能正在经历一个特殊的时刻,根据专家的说法,这种情况不太可能很快改变。麦肯锡最近的一项调查发现,近一半的公司目前在某些方面使用了人工智能,但绝大多数公司仍然预计,它们在人工智能领域的投资将在未来几年继续增加。

在满足当今的存储需求方面,人工智能也正在迅速变得至关重要。它能够使如此多的数据如此快速、智能地得到分析,并有助于避免瓶颈、可用性问题和安全问题。基于人工智能的存储将允许IT员工在灭火上花费更少的时间,并提高基础架构的可用性和生产效率。

HPE Storage的产品营销总监王大伟表示,该公司的目标是创建一个自动的、人工智能驱动的基础设施,几乎可以在瞬间提供洞察力。

“我们希望达到这样一个境界,即洞察力可以推动即时可见的变革,”他说。“有一种观点认为应该有端到端的人工智能管道,从本地的边缘一直延伸到云。”

从不同的角度看待问题

人工智能改变了存储的任务,这意味着企业也应该以不同的方式看待存储和数据,IBM存储营销总监Doug O'Flaherty说。

“你必须停止把存储看作是数据库或特定用例所需要的东西,而是要考虑如何以不同的方式来访问来自不同部门的数据,”他说。“如果你能让数据科学家或组织中其他跨部门职责的人访问这些数据,你就能进入到下一层次的数据分析,这将是真正改变存储的一个关键任务。”

除了从更广泛的角度来考虑外,重要的是要采用一种更加以应用程序为中心的方法来进行存储,而不是传统的以数据为中心的方法。

“在大数据人工智能世界的1.0版本中,公司认为他们必须是由数据来驱动的。因此,他们专注于将所有数据存储在存储库中以及该组中的所有人工智能人员,“Splice Machine首席执行官Monte Zweben解释说,该公司专注于分布式NoSQL数据库技术。

结果,他说,这些数据湖往往很快就变成了“数据沼泽”,这主要是因为负责业务流程的人没有考虑到这些业务流程中所使用的数据和应用程序。

通过关注应用程序而不是数据,你将能够更好地将存储及其功能与业务匹配起来。例如,处理大量索赔(业务流程)的保险公司将与负责索赔系统的索赔专家和应用程序开发人员一起来确定一个应用程序。通过把它们放在一起,他们可以更好地决定如何使用这些数据来创建一个智能索赔处理系统。

“这是为了让应用程序能够更智能地处理数据,而不是试图收集世界上的所有数据,然后把它们提供给那些可能对索赔感兴趣的人,”他说。“这是一个简单的想法,但它可以对企业如何实施人工智能产生深远的影响。”

建立一个成功的基于AI的存储基础设施也意味着解决了人工智能存储管道中的三个不同的阶段:数据摄入(从不同的环境中摄入和规范化数据,这样你就可以将其看作为一个整体),培训(使用机器学习研究数据来理解它真正的内容)和推理(提供见解的阶段)。

要满足这些要求,存储基础设施必须能够支持非常高的容量、长期的数据保留和高性能处理。换句话说,大规模的人工智能也需要大规模的能力、保留率和性能。

Storage Switzerland的首席分析师George Crump表示,支持高存储容量的能力是至关重要的。组织很少删除用于训练人工智能工作负载的数据点,因为获取这些数据的初始成本很高,他说。此外,这些数据集也不遵循典型的数据访问模型,即随着年龄的增长,使用的机会将会减少。“人工智能工作负载需要重新处理旧训练数据的几率几乎为100%,因此整个数据集需要时刻保持易于获取,”他补充道。

长期的保留也同样重要,特别是当存储容量不断增加时。

“我们的意思是,机器将根据输入的数据来做出决策。这意味着数据不能被删除。它将持续增长,”O'Flaherty说。“你拥有的数据越多,应用人工智能的准确性和效率也就越高。”

除了简单地存储更多的数据之外,你还必须存储更多类型的数据。其中包括有关数据(元数据)的数据,许多人认为,这些数据正在成为最有价值的商品之一,尤其是在数据治理方面。

第三个要求是高性能处理。

“训练人工智能应用程序是一个迭代的过程,(而且)提高精确度也会是一个反复训练的过程,调整人工智能算法,然后再次训练,”Crump说。“迭代的速度越快,开发人员制作的模型就越精确,这也就增加了存储基础设施的压力。”

在大多数人工智能工作负载中,关键是要确保这些环境中的标准图形处理单元(GPU)保持尽可能的繁忙,Crump说。取决于人工智能的工作负载,一个有许多节点、混合了闪存和硬盘的扩展存储系统是有意义的,Crump说。“人工智能的工作负载往往是非常并行的,而一个并行的、向外扩展的存储集群即使在硬盘驱动器上也可能会遇到挑战,”他说。

充分利用人工智能

对于刚起步的公司来说,通过从系统中提取数据并将人工智能方法应用于选定的数据集来寻找相关性,可以简单地扩充现有的数据。不过,最终你会想要深入一点。一旦将关键的应用程序和系统绑定在一起,要想获得人工智能的真正好处,就可能需要部署新的基础设施和新的处理数据方法。

你选择的基于人工智能的存储系统应该具有快速管理元数据的智能,并能够在正确的存储类型上存储正确的数据类型。Crump说,如果你选择在本地运行基础设施,你就可以从全闪存存储系统开始,但最终将其迁移到闪存和硬盘的混合环境也是有意义的。通常,环境还将包括软件定义的存储,它可以自动在环境之间移动数据。

有些组织则更喜欢把所有东西都保留在本地--尤其是那些有敏感的工作负载和遵从性/数据治理问题的组织--而其他组织则可以从基于云的人工智能/存储环境中获益。

“这其中有很大一部分是发生在云计算领域,因为云计算需要共享计算能力和数据,”HPE公司Nimble Storage的产品管理高级总监Rochna Dhand表示。“你从任何人工智能模型中得到结果的质量都会取决于训练这些模型的可用数据的多样性和数量,所以使用一个从云端收集全球数据的系统是很有意义的。”

相关推荐