数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

与传统的数据仓库相比,数据湖具备以下优势。数据湖与数据仓库、数据集市的对比见表1。

1.数据类型丰富
数据湖的存储底座通常采用对象存储或者对象存储与传统大数据存储(如HDFS等)结合的方式,可以兼容多种数据格式,方便存储结构化、非结构化和半结构化的数据,对象存储易于扩展的特性也方便支持数据量的快速增长。结构化数据、半结构化数据和非结构化数据对比如图7所示。

2.数据模式灵活
传统的数据仓库通常面向稳定的数据需求建模,采用Schema on Write(写时定义)预先定义好数据格式,加载前进行清洗、转换等统一的预处理,向用户提供标准、规范、一致的数据服务,但数据模型建设完成后,Schema的修改和变更会非常繁琐。数字化转型网www.szhzxw.cn
而数据湖一般采用Schema on Read(读时定义)的数据模式,可直接加载原始文件,入湖前无需定义复杂的结构,用户使用时再自行定义数据格式并按需处理,服务方式更加灵活。数据湖、数据仓库工作模式对比如图8所示。

3.数据时效提升
数据湖支持流批一体架构,能够兼顾流处理的及时性和批处理的可靠性。当前多种开源数据湖框架均可以实现流批一体,既可以摄取增量数据,提升数据加载速度,为实时场景需求提供支撑;也可以提取全量数据,进行全量的数据加工,提供稳定的数据服务。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于FCC30+;编辑/翻译:数字化转型网Jack。








