随着企业积累的数据越来越多。如何利用大数据技术构建企业大数据平台,以充分体现大数据的价值,是各行各业一直在不断探索和追求的目标。从企业大数据平台搭建角度来看,可以将企业大数据平台概括为6个主要环节。从数据源开始,依次为数据采集、数据处理、数据存储、数据服务、数据展示以及数据质量管理。那么,企业级大数据平台应具备什么样的基本能力呢?
1.数据接入和采集能力
面对各种来源的数据,数据接入就是将这些零散的数据整合在一起,综合起来进行分析。数据接入主要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入。企业级大数据平台首先面临的是如何把海量数据接入到平台的问题。应根据企业生产运营数据特征,重点解决如何建立起一套标准化、规范化的数据规范,以及灵活、可扩展的技术体系,以适应体量大、多源异构的海量数据接入需求。开源工具方面,数据接入常用的工具有Flume,Logstash,Talend,sqoop等。对于实时性要求比较高的业务场景,比如对存在于社交网站、新闻等的数据信息流需要进行快速的处理反馈,那么数据的接入可以使用开源的Strom,Spark streaming等。当需要使用上游模块的数据进行计算、统计和分析的时候,就需要用到分布式的消息系统,比如基于发布/订阅的消息系统Kafka。还可以使用分布式应用程序协调服务Zookeeper来提供数据同步服务,更好的保证数据的可靠和一致性。
数据采集的主要目标是从数据源收集数量巨大、来源分散、格式多样的数据到企业大数据平台。一般采取实时数据增量采集和历史数据批量采集两种解决方案。实时数据增量采集在监控领域应用比较广泛,快速、高效收集数据源产生的实时数据,以便即时响应和处理;历史数据批量采集则是将数据源历史一段时间的数据全部抽取到企业大数据平台,数据采集存在一定的延迟,适合数据补采、周期性计算等实时性要求不高的业务应用场景。
2.数据存储和查询能力
企业级大数据平台面临的第二个问题是如何将数据持久化存储,并提供业务应用要求的高效查询能力。为了应对不同的业务应用场景,平台应选择合适的存储形式,例如关系型模型、非关系型模型或者文档模型。企业级大数据平台应支持在关系型数据库、文档类型数据库、时序数据库等媒介的存储和查询能力。
数据存储是大数据集合、主题数据、业务数据、基础数据等持久化的存储中心,一般包括关系型数据库和分布式文件系统两种。关系型数据库用于存储主题数据、业务数据、基础数据等;分布式文件系统用于存储大数据集合。
除了传统的数据存储,Hadoop也包含广泛应用于数据存储的HDFS,常用的还有分布式、面向列的开源数据库Hbase,HBase是一种key/value系统,部署在HDFS上,与Hadoop一样,HBase的目标主要是依赖横向扩展,通过不断的增加廉价的商用服务器,增加计算和存储能力。同时hadoop的资源管理器Yarn,可以为上层应用提供统一的资源管理和调度,为集群在利用率、资源统一等方面带来巨大的好处。
3.数据处理和计算能力
企业级大数据平台要充分体现数据价值,就需对数据进行进一步的加工、分析和挖掘。支持离线批处理、实时计算、机器学习、多维度分析和全文检索等等应用场景。
数据处理层是从大量的原始数据中发现新知识、创造新价值、提升新能力的过程,是企业大数据平台建设的关键环节。数据处理层既要满足常规的统计分析和有价值的数据挖掘等离线历史大数据处理要求,还要兼顾时效性要求高的在线实时流数据处理要求。
在线实时流数据处理要求数据实时采集、实时处理、实时反馈和实时输出,响应时间在秒级甚至于毫秒级。离线历史大数据处理通常是针对批量采集数据,数据处理量大,达到TB、PB级以上,数据处理周期以分钟、小时、天为单位。当然,对于实时增量数据,我们可以以增量方式处理分钟、小时、天为单位的统计数据,以提高系统处理效率。
4.数据服务和展示能力
数据服务是大数据对外共享发布通道。目前应用最多的是以服务接口API的形式对外提供,或者以消息订阅推送的方式对外提供。
数据展示是企业大数据平台的图形用户接口。展现形式可以多样化,最典型的三种方式是:移动客户端、个人工作站和可视化大屏幕。
对于处理得到的数据可以对接主流的BI系统,比如国外的Tableau、Qlikview、PowrerBI等将结果进行可视化,用于决策分析;或者回流到线上,支持线上业务的发展。
5.数据管理和治理能力
数据质量管理是贯穿数据采集、数据处理、数据存储、数据服务和数据展现的全过程质量管理体系。数据治理的目标是把数据管起来、用起来、保证数据质量,这些目标离不开各种技术的支持,这些技术包括元数据自动采集和关联、数据质量的探查和提升、数据的自助服务和智能应用等。采集元数据之后需要相应的存储策略来对元数据进行存储,这需要在不改变存储架构的情况下扩展元数据存储的类型。
通过大数据治理来提升数据质量的过程中,涉及到很多环节、工作和技术,其中包括:通过合理的技术找出数据问题并找到问题数据;从各个维度监控数据问题,并能通过最直观和快捷的方式反馈给相关责任人;实现问题发现、认责、处理、归档等数据问题的闭环解决流程等。
获取更多资讯,欢迎关注微信公众号: atSting