数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

为实现海量多源异构数据集中存储,提升存储计算资源集约化管理水平,支持存储计算能力快速交付,数据湖需要包括多种技术能力,总结归纳现有企业和开源数据湖的实践情况,数据湖的关键技术主要包括:
数据湖的关键技术一:异构存储引擎
数据湖需要容纳海量各种类型的数据,单一存储引擎很难满足所有的要求。分布式文件存储HDFS虽然在结构化数据存储领域表现优异,但是由于扩容和元数据管理困难,面对海量小文件的半结构化和非结构化数据的存储和处理需求难以满足。HDFS存储原理如图2所示。数字化转型网www.szhzxw.cn

图2 HDFS存储原理
而对象存储可以满足企业对非结构化数据的存储需求,扁平化的数据结构允许存储容量从传统的SAN、NAS的TB级扩展到PB甚至EB级,同时管理数十到百亿个存储对象。数字化转型网www.szhzxw.cn

因此目前应用最广泛的数据湖存储引擎是将分布式文件存储与对象存储结合使用,综合数据格式特点和生命周期规划存储区域,低成本、易维护地实现海量数据的集中存储。
数据湖的关键技术二:统一存储视图
为了适应数据量的爆炸式增长和数据类型的不断丰富,数据湖存储底座通常由多种存储引擎构成。当存储引擎发生变化或数据在不同存储引擎之间流动时,应用程序开发人员往往需要开发多种数据访问方式并随之频繁调整,面临着巨大的挑战。数字化转型网www.szhzxw.cn
因此,为了便于应用程序访问数据,数据湖使用数据编排技术搭建上层计算框架和底层存储引擎的桥梁。例如加州大学伯克利分校开源的Alluxio项目,为不同存储引擎中的数据构建统一存储视图,向上层应用程序提供通用的客户端api和全局命名空间;同时,它还具备缓存功能,支持热数据的快速访问。
这类技术使得开发人员只需将重点放在数据应用逻辑上,而不需要关注数据保存在数据湖何处或存储的特性如何。Alluxio工作流程如图4所示。

数据湖的关键技术三:增强存储管理
数据湖存储了海量原始数据文件,一方面数据定义规范的缺失会导致使用成本大幅增加;另一方面HDFS和对象存储对于数据的快速更新,都没有便捷的解决方案。以HDFS存储为例,HDFS文件一旦被写入就无法修改,只允许在文件尾继续追加数据,如果数据错误需要更新只能重新全量写一份,运维成本很高。因此,如何快速、一致地管理湖中存储的数据,成为亟待解决的问题。
Apache Iceberg、Apache Hudi、Delta Lake等项目将数据库事务能力引入大数据领域,重新定义数据和元数据的组织方式,在底层数据存储格式(如Parquet、ORC等)之上提供了一种更优的数据组织格式,进一步增强了数据湖的存储管理能力。数字化转型网www.szhzxw.cn
这些新型数据组织格式支持索引、Schema预定义、ACID事务保证和小文件自动合并,能够便捷地实现湖内数据的快速更新、插入、删除和多版本管理。同时,一份数据可以同时拥有多种读取视图,能更好地支持对数据湖流批数据的使用需求。Apache Hudi工作流程如图5所示。

数据湖的关键技术四:元数据自动采集与血缘分析
数据湖的精细管理需要以元数据为核心。元数据是关于数据的数据,贯通从数据源到数据湖,记录了数据从产生到消费的全过程。元数据信息可以帮助数据湖开发人员和使用人员方便地查找并定位数据、理解和使用数据,是数据湖发挥价值的关键所在。数字化转型网www.szhzxw.cn
数据湖中的数据又多又杂,应尽量选用可以自动采集、智能分析的元数据工具。以开源的元数据工具Apache Atlas为例,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力,同时支持S3接口与对象存储交互。
Apache Atlas包含一组可伸缩和可扩展的核心基础治理服务,能够方便地与各类大数据组件集成,自动监听并分析数据源变化情况,实时采集元数据基础信息和血缘管理,为数据湖提供统一高效的元数据采集和管理能力。Apache Atlas架构如图6所示。数字化转型网www.szhzxw.cn

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于FCC30+;编辑/翻译:数字化转型网Jack。








