数据仓库架构该内部部署,还是上云?

IT伯伯 2018-08-15

对于必须处理大量数据的企业决策者来说,建立数据仓库通常是必要的,那么是应该在内部还是在云中进行设置?

将数据集中到单一的事实使商业智能,战略和决策变得容易。数据进入后,洞察就出来了。无论你是使用传统的内部部署仓库还是基于云的仓库,都可以有利于实现业务目标,尽管方式略有不同。

数据仓库架构该内部部署,还是上云?

但是,选择在现代的,基于云的仓库上实施传统仓库不仅仅会带来表面层面的可用性差异。内部部署与云的底层架构可能是你的企业如何为数据管理和情报收集分配资源和预算的重要因素。

简而言之,必须由你自己的IT团队在现场配置和管理内部部署解决方案的规定结构。这些解决方案通常比基于云的替代方案更昂贵,更严格,更复杂,这可能会让你在评估适合你公司的方案时暂停。

相反,基于云的仓库往往更具适应性。它们可以根据谁提供平台以多种方式进行配置。无论如何,它们都利用自助服务模型,并支持各种集成和附加功能,以便随着业务的变化扩展数据分析。因此,云数据仓库往往更便宜,更灵活,更易于IT团队管理。

为了更好地了解架构如何在确定正确的数据仓库解决方案中发挥作用,让我们仔细研究一下如何构建内部部署和基于云的仓库,以及所需的人员和资源的前期投资水平。

内部数据仓库架构

实际上,所有内部部署的数据仓库都位于多层架构之上。

这些层提供了如何收集,存储和使用数据的一般结构。在底层,数据库服务器从多个来源(如财务,销售和营销,客户和库存系统)收集数据,而中间层的OLAP(在线分析处理)服务器使数据可用于分析。在顶层,用户可以通过各种工具查询,访问和操作数据。每个层内都是动作发生的层。

  • 数据进入数据库(数据源),然后提取和清理数据(数据提取)。
  • 暂存区域进一步清理数据并在数据流入数据仓库之前保留数据。
  • ETL过程(提取,转换,加载)将数据从其原始状态更改为可以通过第三方ETL工具进行分析的形式。
  • 然后将数据加载或存储在实际数据仓库(数据存储)中。
  • 应用数据逻辑,其设置如何报告数据的规则,并且数据呈现使得用户可以在表格,图形,电子邮件,警报和其他形式中呈现数据。
  • 元数据:将其视为“有关信息的信息” ,以及系统操作使系统管理员能够了解数据的存储方式以及仓库的运行方式。

对于每个层,IT团队以及可能的数据科学家必须确保系统正常运行,并确保数据安全并正确处理。业务中的任何更改也将更改其收集和使用的数据。它需要手动重新配置,测试以及许多其他耗时的步骤来调整数据仓库和相关流程。

维护内部部署数据仓库并不适合胆小者,并且当企业可以在具有适当技能,培训和专业知识的硬件和员工方面进行大量投资时,这种方法很成功。

云数据仓库架构

云中的数据仓库以不同方式构建。每个仓库提供商都提供自己独特的架构,在多个物理服务器,网络或软件工具之间分配工作负载和处理数据,同时使用户可以轻松访问数据并且功能更强大。

下面介绍一些更流行的云数据仓库选项是如何构建的:

  • Amazon Redshift的结构类似于传统的数据仓库,但它存在于云中。它使用通过主节点提供数据的计算集群,主节点在所有集群和用户之间进行通信。主节点将查询,数据集和应用程序分配给不同的集群,然后将信息和结果过滤回用户。
  • 与Redshift类似,Snowflake也基于集群架构构建,并作为服务提供。它将数据提取,存储和分析集成到一个系统中,但将存储和计算分开,以实现快速扩展和更有效的资源利用。
  • 同时,Google BigQuery使用无服务器,数据仓库即服务模型。它集成了多个第三方工具和服务,因此用户可以高速运行数据集上的交互式查询。基本体系结构对用户是隐藏的,但基本服务管理机器资源以扫描列和数据行并返回查询结果。
  • 微软Azure是一个SQL数据仓库,它将SQL关系数据库与大规模并行处理相结合,允许用户运行复杂查询。与其他Azure工具一起,用户可以轻松地将数据存储,传输和处理服务集成到自动数据管道中。

由于云数据仓库是自助服务的,因此它们构建为用户友好的。它们旨在允许你现有的普通级IT员工定制和管理工作流程,并在需要时获得专家帮助,作为服务的一部分。这就是为什么云仓库中的初始投资和持续开支远远低于传统的,因为无需聘请大量数据科学家或购买和维护昂贵的硬件。

相关推荐