数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

1、AWS数据湖

AWS数据湖[8]基于AWS Lake Formation构建,AWS Lake Formation本质上是一个管理性质的组件,它与其他AWS服务互相配合,来完成整个企业级数据湖构建功能。上图自左向右,体现了数据沉淀、数据流入、数据计算、数据服务等步骤。数字化转型网www.szhzxw.cn
(1)数据沉淀:采用Amazon S3作为整个数据湖的集中存储,包含结构化和非结构化的数据,按需扩展/按使用量付费
(2) 数据流入:元数据抓取、ETL和数据准备AWS将其单独抽象出来,形成了一个产品叫AWS GLUE,GLUE基本的计算形式是各类批处理模式的ETL任务,任务的出发方式分为手动触发、定时触发、事件触发三种数字化转型网www.szhzxw.cn
(3)数据处理:利用AWS GLUE进行批处理计算模式之外,也可以使用Amazon EMR进行数据的高级处理分析,或者基于Amazon EMR、Amazon Kinesis来完成流处理任务
(4)数据分析:数据通过Athena/Redshift来提供基于SQL的交互式批处理能力,通过 Amazon Machine Learning、Amazon Lex、Amazon Rekognition进行深度加工
2、华为数据湖

华为数据湖基于DLI Serverless[9]构建,DLI完全兼容Apache Spark、Apache Flink生态和接口,是集实时分析、离线分析、交 互式分析为一体的Serverless大数据计算分析服务。可以看到,DLI相当于是AWS的Lake Formation、GLUE、EMR(Flink&Spark)、Athena等的集合,承担了所有的数据湖构建、数据处理、数据管理、数据应用的核心功能。数字化转型网www.szhzxw.cn
为了更好的支持数据集成、规范设计、数据开发、数据质量监控、数据资产管理、数据服务等数据湖高级功能,华为云提供了DAYU智能数据湖运营平台[10],DAYU涵盖了整个数据湖治理的核心流程,并对其提供了相应的工具支持,如下图所示。

3、阿里云数据湖

阿里云DLA数据湖解决方案[4]如上图所示,DLA 核心在于打造云原生的服务与引擎,端到端解决基于 OSS 的管理、分析、计算问题,核心关键点如下。数字化转型网www.szhzxw.cn
(1)数据存储:采用OSS作为数据湖的集中存储,可以支撑EB规模的数据湖,客户无需考虑存储量扩容,各类型数据可以统一存储
(2)数据湖管理:面对 OSS 数据开放性带来的管理及入湖困难,DLA的Formation组件具备元数据发现和一键建湖的能力,DLA提供Meta data catalog组件对于数据湖中的数据资产进行统一的管理,无论数据是在“湖中”还是在“湖外”,比如利用元数据爬取功能,可以一键创建 OSS 上的元数据信息,轻松自动识别 CSV/JSON/Parquet 等格式,建立好库表信息,方便后续计算引擎使用
(3)数据分析和计算:DLA提供了SQL计算引擎和Spark计算引擎两种。无论是SQL还是Spark引擎,都和Meta data catalog深度集成,能方便的获取元数据信息。基于Spark的能力,DLA解决方案支持批处理、流计算和机器学习等计算模式数字化转型网www.szhzxw.cn
(4)在数据集成和开发上:阿里云的数据湖解决方案提供两种选择:一种是采用dataworks完成;另一种是采用DMS来完成。无论是选择哪种,都能对外提供可视化的流程编排、任务调度、任务管理能力。在数据生命周期管理上,dataworks的数据地图能力相对更加成熟。
阿里云DLA解决方案的另一个特色在于“基于云原生的湖仓一体化”。传统的企业级数据仓库在大数据时代的今天,在各类报表应用上依然是无法替代的;但是数仓无法满足大数据时代的数据分析处理的灵活性需求。
因此,阿里云推荐数据仓库应该作为数据湖的上层应用存在:即数据湖是原始业务数据在一个企业/组织中唯一官方数据存储地;数据湖根据各类业务应用需求,将原始数据进行加工处理,形成可再次利用的中间结果;当中间结果的数据模式(Schema)相对固定后,DLA可以将中间结果推送至数据仓库,供企业/组织开展基于数仓的业务应用。阿里云在提供DLA的同时,还提供了云原生数仓(原ADB),DLA和云原生数仓在以下两点上深度融合。数字化转型网www.szhzxw.cn
(1) 使用同源的SQL解析引擎。DLA的SQL与ADB的SQL语法上完全兼容,这意味着开发者使用一套技术栈即能同时开发数据湖应用和数仓应用。
(2) 都内置了对于OSS的访问支持。OSS直接作为DLA的原生存储存在;对于ADB而言,可以通过外部表的能力,很方便的访问OSS上的结构化数据。借助外部表,数据可以自由的在DLA和ADB之间流转,做到真正的湖仓一体。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 大鱼的数据人生;编辑/翻译:数字化转型网Jack。








