数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

以下是数据湖技术和数据仓库的⼀个简单对比:
数据仓库是⼀个优化的数据库,⽤于分析来自事务系统和业务线应⽤程序的关系数据。事先定义数据结构和Schema以优化快速SQL查询,其中结果通常⽤于操作报告和分析。数据经过了清理、丰富和转换,因此可以充当用户可信任的“单⼀信息源”。
数据湖有所不同,因为它存储来自业务线应⽤程序的关系数据,以及来自移动应⽤程序、IoT设备和社交媒体的非关系数据。捕获数据时,未定义数据结构或Schema。这意味着可以存储所有数据,而不需要精心设计也无需知道将来可能需要哪些问题的答案。可以对数据使用不同类型的分析(如SQL查询、⼤数据分析、全⽂搜索、实时分析和机器学习)来获得结果。
| 特性 | 数据仓库 | 数据湖 |
| 数据 | 来自事务系统、运营数据库和业务线应用程序的关系数据 | 来自IOT设备、网站、移动应用程序的非关系和关系数据 |
| Schema | 设计在数据仓库实施之前(写入型Schema) | 写入在分析时(读取型Schema) |
| 性价比 | 更快查询结果会带来较高存储成本 | 更快查询结果只需较低存储成本 |
| 数据质量 | 可作为重要事实依据的高度监管数据 | 任何可以或无法进行监管的数据 |
| 用户 | 业务分析师 | 数据科学家、数据开发和业务分析师 |
| 分析 | 批处理报告、BI和可视化 | 机器学习、预测分析、数据发现和分析 |
数据湖优先的设计拥有更⾼的灵活性。数据湖的数据存储形式和结构可以不预先定义,可以是结构化的,也可以是半结构化的。计算引擎可以根据不同的场景读写数据湖中存储的数据,这意味着在对数进行分析和处理时能获取到数据全部的初始信息,使⽤也更灵活,⾼效。
数据仓库优先的设计,能够做到更加规范化的数据管理。数据进入数据仓库前,通常预先定义schema,数据开发需要预先根据业务进⾏建模,构建数据模型,用户通过数据服务接⼝或者计算引擎访问数据模型来获取干净和规范的数据。
总结:本文介绍了数据仓库出现的背景,以及数据湖解决了数据仓库的哪些痛点,数据湖有哪些特性。下期我们将介绍数据湖有哪几种开源实现方式及其实现原理,如何构建流批一体的湖仓架构。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于大数据的朋友;编辑/翻译:数字化转型网Jack。








