首页 » General » 正文

数据湖迁移到云的四个原因

从管理复杂性到增加可伸缩性,我们提供了四个使您的企业受益于将数据湖移至云平台的理由。

互联网上有关Hadoop未来的搜索产生了一些文章,质疑Hadoop是“正式死亡”还是变得无关紧要。就在三年前,Forrester预测 Hadoop的年增长率将达到33%。不到一年之后,他们的分析得出结论,Hadoop将“与数据仓库和大型机并列”。

Hadoop重新设定了对管理和分析极端数据量和种类的期望,但是毫无疑问,随着竞争性云产品提供了更大的灵活性,更低的成本和更简单的开发,它在数据生态系统中的地位已经发生了变化。

来自云提供商Amazon,Microsoft和Google的解决方案提供了更加灵活,敏捷的环境,可以按需弹性扩展,并提供了更快,更轻松,以更低的价格捕获,存储,处理和分析现代数据的功能。

在Hadoop上进行了重大投资的组织很可能会继续使用它来存储企业数据,同时在云中构建数据湖以捕获新型数据或随着时间的推移从Hadoop迁移数据。对于较小的公司或刚开始使用数据湖的公司,现在的趋势是开始在云中完全放弃Hadoop。这是将数据湖移至云的四个原因。

原因1:复杂性和成本

众所周知,Hadoop生态系统非常复杂,因此管理成本很高,这需要具备丰富的Java技能和Hadoop平台知识。据说“为了正确支持Hadoop项目,每个数据科学家都需要两名数据工程师。” 陡峭的学习曲线,小数据集的效率低下,缺乏安全性以及分析性能低下使组织感到沮丧。在云平台上构建的数据湖更加直观,所需的技术知识也更少,反过来,对于技能娴熟且难以发现的资源来说,成本也更低。

同时,基于云的按需基础架构消除了对用于存储和处理数据的硬件投资的需求,从而使企业只需为使用的内容付费。他们不再为硬件的维护和保养付费,并且费用通常基于实际存储和计算成本,并按每个查询,每个TB,每月等计费。

服务于云数据湖的许多软件也都内置于云中,并且没有服务器,从而使组织可以以更低的成本更快地上手,而仅需为使用的内容付费。

批评人士说,这种按需付费的模式可能会失控。的确,必须对成本进行严格监控,但是节省的工程成本,专业人才,专有硬件和其他费用远远不能弥补此潜在缺陷。

原因2:技术成熟度

将当今更大,更复杂的数据从越来越多的各种数据源转移到本地数据湖中变得越来越困难。传统的数据集成工具(及其提取,转换和加载架构)无法足够快地将数据量交付给Hadoop。同时,业务用户对分析Hadoop中的数据量长的响应时间变得非常不耐烦。

尽管致力于Hadoop的组织已经开发了自定义工具和变通办法来克服其局限性,但是由于它们是并非所有组织都可用的稀有高技能资源,因此它们往往很昂贵。

当今的云数据湖得到了更为成熟的技术环境的支持,该技术环境支持从源到目标的完整数据之旅,包括数据集成,转换,聚合以及BI和可视化。这些云原生工具专为现代数据的多样性,数量和速度而设计。它们可作为服务使用,易于部署,使用更直观且始终保持最新状态。

还值得注意的是,云数据湖更适合于人工智能和机器学习应用程序所需的复杂深度学习。

原因3:可扩展性

本地数据湖需要大量的人工来添加和配置服务器,以容纳更多的数据集,更多的用户和活动高峰。公共云提供商提供的按需基础架构使组织能够灵活扩展数据湖以支持这些潮起潮落,而又不会增加维护和运营成本。

实际上,公共云提供商的基础设施即服务解决方案现在提供了自动扩展功能,使组织可以根据其创建的规则自动优化资源利用率。他们决定最小和最大实例数,以确保应用程序保持运行而不会超出预算。

云基础架构具有更高的可扩展性,支持云数据湖的许多技术也是如此。软件即服务解决方案还提供了按需付费的按需解决方案,可通过云获得这些解决方案,并且可以轻松扩展和缩小以处理增加的数据量和用户,而无需额外的实现或硬件要求。

原因4:安全与治理

Hadoop生态系统中的数据隐私和安全性可能很复杂。堆栈中有这么多工具,每个工具都必须具有正确的数据访问,身份验证和加密功能。在复杂的Hadoop环境中实现此目标需要正确的专业知识和关注。

现在,大多数安全和治理要求已成为云提供商的基础架构即服务的一部分,其中一些带有自己的凭据工具。它们都支持遵守HIPAA,PCI DSS,GDPR,ISO,FedRAMP和Sarbanes-Oxley等法规。

尽管数据安全在云计算中已经走了很长一段路,但不应完全将它留给云提供商。每个组织都必须承担确保数据安全和隐私的责任。

向前进

迁移到Hadoop无疑使我们中的许多人重新考虑了我们以前对数据的期望,但是云技术继续推动了对话,而即服务模式仅在许多方面变得越来越流行并提高了人员和预算的效率组织。对于那些因当前的数据湖环境或考虑使用云而面临挑战的人,现在是时候实现飞跃了。

复杂的本地数据管理和处理的旧模型表明,这本身是一个成本高昂且繁琐的过程,因此,招聘合适的人才变得越来越困难。通过将这些流程转移到云中,组织将快速实现大量时间和成本节省,并可以建立更高效,可靠的数据管理系统。

关于作者

Ravindra PunuruDiyotta,Inc.的联合创始人兼CTO 他负责现代数据集成技术战略,产品创新和发展方向。Ravindra拥有20多年的数据管理和咨询经验,在企业管理以及基于云的数据驱动技术的战略和战术使用方面拥有广泛的知识,可以提高创新,生产力和效率。Ravindra过去的职务包括与大型公司(包括AT&T,k,Time Warner Cable和美国银行)一起设计和交付企业数据仓库程序。您可以通过电子邮件LinkedIn与作者联系。