概述
关键挑战
-
数据和分析领导者通常不清楚数据湖,数据仓库和Data Hub之间的区别。将它们定位为竞争性方法会造成混乱。
-
在没有清楚了解每种结构类型的特定角色和功能的情况下,数据和分析团队会错过为特定业务需求提供最佳支持的机会。
-
许多组织还忽略了同时使用数据湖,数据仓库和Data Hub的价值。这些结构的组合可用于支持一组更多样化的数据和分析用例。
推荐建议
寻求现代化数据管理解决方案和支持体系结构的数据和分析领导者应:
-
通过识别它们在焦点上的区别来区分这些结构。数据仓库和数据湖主要用于支持分析工作负载。相比之下,Data Hub不是主要的分析结构-它们使数据集成,共享和治理成为可能。
-
通过传达每种结构的特征和通用用例,消除混乱并确保方法与业务需求保持一致。
-
通过确定可以结合使用这些结构的方式,最大程度地提高您支持更广泛的各种用例的能力。例如,可以使用Data Hub作为中介和治理的点,将数据传递到分析结构(数据仓库和数据湖)。
战略规划假设
到2021年,采用结合Data Hub,数据湖和数据仓库的整合战略的企业将比竞争对手提供30%以上的用例支持。
介绍
数据继续变得越来越多样化和分布越来越多,数据源和数据使用点也是如此。同时,整个企业乃至整个企业,数据的分析需求和操作用途都在激增。基于集中收集数据并实现预定义用途的传统体系结构不再能够满足利益相关者的需求。数据和分析领导者及其团队需要提供现代化的数据管理基础架构,以支持灵活性,数据需求的多样性和连接性。
这需要将不同的数据组织和处理方法结合在一起。但是,一些数据和分析团队仍专注于使用单一体系结构模式(传统的企业数据仓库,现代的数据湖或Data Hub)来满足所有需求。
这些概念之间存在明显的混淆。许多组织将互换使用这些术语,或者在不同情况下使用同一术语来表示不同的事物。例如,尽管Gartner从2018年到2019年对Data Hub的客户查询增加了20%,但其中超过25%的查询实际上是关于数据湖概念的。这表明该术语存在混淆或误用。
数据仓库和数据湖的角色也不清楚。估计有30%提出数据湖查询的客户正在考虑将数据湖替换为数据仓库,或者不清楚数据湖与数据仓库之间的关系。
所有这三种架构模式(数据仓库,数据湖和Data Hub)都是关键的投资领域(见图1)。然而,需要更大的清晰度和重点。数据和分析主管必须了解这三种类型的结构的目的以及它们在现代数据管理基础架构中可以扮演的角色。这将帮助他们将功能适当地映射到需求并捕获最大范围的用例。
分析
区分数据仓库,数据湖和Data Hub,并认识到它们在重点上的不同
作为一项基本原则,数据和分析领导者需要认识到这些结构中的每一个服务于不同的目标。通过考虑数据管理的四个关键方面(如图2所示)可以很容易地对它们进行细分。比较这些方面的数据仓库,数据湖和Data Hub可以帮助数据和分析领导者识别:
-
这些结构如何相似。
-
这些结构如何不同。
-
这些结构可能在数据管理基础结构中扮演的角色。
数据仓库和数据湖是相似的。两者都提供了用于收集事务性详细数据(以及可能的其他类型的数据)的端点,专门用于支持分析工作负载的执行。这意味着可以在它们之上运行各种分析,访问它们持有的数据以支持分析处理。因此,数据仓库和数据湖都具有共同的重点-支持企业的分析需求。尽管数据仓库和数据湖可能还包含治理控制(例如,它们可以提供监视和解决入站数据中的质量问题的功能),但它们以更被动和“下游”的方式支持治理。
Data Hub有很大的不同,因为它们通常不会长时间存储详细数据。此外,Data Hub不是通常在其上执行分析工作负载的存储库。相反,它们是中介和数据共享的重点。Data Hub通过将生产系统和流程与消费系统和流程连接起来,使企业中的数据流成为可能。例如,Data Hub可用于将业务应用程序连接到数据仓库或数据湖。他们还主动将治理控制应用于流经基础架构的数据。
数据仓库和数据湖是支持分析工作负载的结构。Data Hub有所不同-它们的主要重点是实现数据共享和治理。
因此,数据和分析团队应将数据仓库和数据湖视为相似类型的结构。它们的主要目的是支持分析(尽管样式不同)。相反,数据和分析领导者应将Data Hub视为更多的运营结构,重点是实现数据共享和治理。
交流这些结构各自的特征和常见用例
数据和分析团队应就每种结构类型的明确定义和理解达成一致。然后,他们必须将这些定义传达给所有利益相关者。这将避免混淆,并确保术语的滥用不会导致期望与现实之间的脱节。Gartner对这些结构的定义如下:
-
数据仓库- 数据仓库是数据的集合,其中两个或多个不同的数据源可以通过集成的时变信息管理策略组合在一起。数据仓库通常存储着众所周知的结构化数据。它们支持众所周知的,预定义的和可重复的分析需求,这些需求可以在企业中的许多用户之间扩展。因此,数据仓库最适合中度到高度一致的语义要求。而且,它们通常支持相当固定的处理策略(对中央物理数据存储的面向SQL的访问)。数据仓库适合于复杂的查询,高级别的并发访问和严格的性能要求。
-
数据湖- 数据湖收集未精炼的数据(即,本机形式的数据,转换和质量保证有限)和从各种源系统中捕获的事件。数据湖通常支持数据准备,探索性分析和数据科学活动-可能涉及广泛的主题和组成部分。结果,数据湖支持高度可变的语义,一组通用的分析用例以及一系列不同的处理样式和方法(包括数据发现,机器学习和大量处理)。
-
Data Hub- 与数据仓库和数据湖不同,Data Hub不专注于数据的分析用途。相反,Data Hub是一种架构模式,可实现数据的无缝流动和治理。数据的生产者和消费者通过Data Hub相互连接,并应用了治理控制和通用模型以实现有效的数据共享。Data Hub主要关注于驱动一致的语义。它们可以支持一系列用例-本质上通常是可操作的(例如,向企业应用程序和流程提供主数据)。它们还可以支持多种处理策略(通过选择数据持久性技术,集成样式和访问方法)。
重要的是要认识到,尽管这些定义和特征代表着共同的边界,但是却存在重叠。例如:
-
数据仓库可以支持某些类型的探索性分析。这是通过为用户提供正确的工具(包括结构不同,语义各异的数据)并启用有限范围的处理样式来实现的。
-
一些Data Hub确实保存了详细的数据(可能是为了缩短时间范围),并且可以在此处执行一些报告/商业智能(BI)工作负载。
尽管每种结构的最佳用法可能会大不相同,但根据设计方法和技术选择,它们之间的区别可能会变得模糊。
通过这些结构的组合,可以最大程度地支持更广泛的各种用例的能力
重要的是要认识到数据仓库,数据湖和Data Hub之间的差异,以及它们在基础架构中的作用。但是,数据和分析团队也必须了解这些结构之间的相似之处。这些结构中的每一个都以架构模式存在-而不是单个工具或技术(参见图3)。作为体系结构模式,可以使用多种不同的技术组件以许多不同的方式来实现这些结构中的每一个。
同样重要的是,认识到这些体系结构模式结合使用可以为企业带来更多价值。数据和分析主管不应该简单地在数据仓库,数据湖或Data Hub之间进行选择。相反,他们应该考虑这些结构的组合以支持当前和预期的全部范围。可以将数据仓库,数据湖和Data Hub组合在一起,以在有效的体系结构中一起工作。
这些结构的常见组合已经出现。例如:
-
数据可以通过充当中介和治理点的Data Hub传递到分析结构(数据仓库和数据湖)(请参见图4)。越来越多的企业将Data Hub体系结构作为集中点来共享和管理整个企业中的所有关键数据。这包括将数据从操作系统供应到分析结构,例如数据仓库和数据湖。
-
可以通过驻留在数据湖和数据仓库中的数据联合来支持逻辑数据仓库。数据仓库和数据湖的不同特征意味着,越来越需要两种模式来支持现代企业的各种分析需求。数据仓库和数据湖功能的组合代表了逻辑数据仓库的一种常见类型。
-
可以使用Data Hub将来自数据湖的见解提供给数据仓库(用于可重复和可扩展的消耗)和外部使用者(请参见图5)。分析工作负载越来越多样化。他们可以从企业内部和外部受益于更多不同的组成部分(并增加从中获得的价值)。组织越来越希望从数据湖中获取新兴的探索性见解,并对其进行扩展,以通过数据仓库在整个企业中更广泛,可重复使用。同样,对将结构化分析结果从数据仓库传递给客户,供应商等的能力的需求也在增加。Data Hub可以成为管理和满足这些需求的有效点。
现代化数据管理基础架构的关键要素是动态能力-随着时间的推移发展架构模式,启用新连接并支持新用例。数据和分析团队应定期检查需求,以决定如何发展。例如,他们可以考虑:
-
将新的端点添加到现有的中心环境。
-
随着具有数据共享要求的端点的新集合的出现,创建了新的Data Hub。
-
转移数据仓库和数据湖之间的关系以优化逻辑数据仓库。
这些架构模式是动态的,并且本质上是分布的。这意味着元数据功能已成为成功的关键-表达和指导结构之间的连接和数据流。