数据仓库、数据湖、数据Lakehouse的区别-数字化转型网www.szhzxw.cn

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

随着数据技术的不断进步，现代公司正在摄取、存储和处理比以往更多的数据，以便做出最明智的业务决策。虽然关系型数据库可能已经足以满足25年前的数据需求，但数据操作的不断增加导致新的数据技术的出现，以支持大数据时代。如今，有许多云产品可供数据团队选择，其中许多将自己描述为数据仓库、数据湖或数据Lakehouse。对于如此相似的术语，可能很难理解供应商这些术语的含义。在这篇文章中，我们将详细解释这些术语的含义，然后讨论实时数据流如何在大数据领域发挥作用。

一、什么是数据仓库？

数据仓库是一个存储和处理中心，主要用于生成报告和执行历史分析。数据仓库中存储的数据是结构化且定义明确的，允许仓库对其数据集执行快速、高性能的分析。来自关系数据库、流存储系统、后端系统和其他来源的数据通过 ETL（提取、转换、加载）过程加载到数据仓库中，其中数据被清理并以其他方式转换，以符合数据仓库预期的数据完整性要求。大多数数据仓库允许用户通过 SQL 客户端、商业智能 (BI) 工具或其他分析工具访问数据。数字化转型网www.szhzxw.cn

对于主要需要进行历史数据分析和结构化数据报告的组织来说，数据仓库是一个不错的选择。然而，ETL 过程增加了将数据引入数据仓库的复杂性，并且对结构化数据的要求可能使系统限制某些用例。流行的数据仓库供应商包括 Snowflake、Amazon Redshift、Google BigQuery 和 Oracle Autonomous Data Warehouse。

二、什么是数据湖？

数据湖是一个大规模存储系统，旨在存储任何规模的结构化和非结构化数据。与数据仓库类似，数据湖可以从许多不同的来源获取数据。然而，数据湖的设计非常灵活，以便用户能够按原样存储原始数据，而无需先清理、重新格式化或重组数据。通过利用廉价的对象数据存储并适应各种数据格式，数据湖使开发人员可以轻松地存储数据。这最终导致组织积累大量数据存储库，这些数据存储库可用于支持机器学习分析、大型数据集聚合以及探索来自不同数据源的数据模式等用例。然而，使用数据湖的挑战之一是下游任务需要理解不同格式的数据以对其进行分析。此外，如果维护不当，数据质量很容易成为数据湖中的问题。Apache Hadoop 和 Apache Spark 等工具在使用数据湖进行分析时很受欢迎，因为这些工具允许开发人员编写自定义逻辑来理解不同类型的数据，但它们需要更多的专业知识才能使用，这限制了使用这些工具的人员可以与数据湖一起使用。数字化转型网www.szhzxw.cn

对于需要存储大量数据、容纳结构化和非结构化数据的组织来说，数据湖是一个不错的选择，但分析和维护数据湖可能是一个挑战。数据湖通常构建在廉价的云存储解决方案上，例如 AWS S3、Azure Data Lake Storage 和 Google Cloud Storage。

三、什么是数据Lakehouse？

数据Lakehouse将数据仓库和数据湖的功能合并到一个系统中，因此得名。随着数据仓库开始添加更多数据湖中的功能，以及数据湖开始添加更多数据仓库中的功能，这两个概念之间的区别变得有些模糊。在数据Lakehouse之前，组织通常需要一个用于存储的数据湖和一个用于处理的数据仓库，但这种设置最终可能会给数据团队带来大量开销，因为来自一个位置的数据通常需要处理或复制到另一个位置数据工程师执行完整分析的其他位置。通过将这两个概念合并到一个系统中，数据Lakehouse的目标是消除这些孤岛并获得两个世界的好处。与数据湖类似，在数据湖房中存储数据仍然便宜、可扩展且灵活，但还提供元数据层来在必要时强制执行架构和数据验证等操作。这使得数据Lakehouse仍然能够像数据仓库一样在查询和分析方面保持高性能。数字化转型网www.szhzxw.cn

由于数据通常以其原始格式加载到数据Lakehouse中，因此通常使用奖章架构。奖章架构描述了一系列查询或处理步骤，用于将原始数据（铜牌）转换为过滤/清理的数据（银牌），再转换为业务就绪的聚合结果（金牌），其中可以轻松查询黄金数据集以用于 BI 目的。

虽然系统成为数据Lakehouse而不是数据湖或数据仓库的实际区别有些细微差别，但具有数据Lakehouse功能的流行云供应商包括 Databricks Lakehouse Platform、Snowflake、Amazon Redshift Spectrum 和 Google Cloud BigLake。虽然数据Lakehouse可以处理广泛的用例，但它们的管理可能很复杂，并且仍然需要熟练的数据专家才能充分发挥其优势。

实时流数据的影响

随着大数据技术的不断发展，对实时数据产品的需求不断增加。用户越来越习惯于立即获得结果，为了支持这些用例，公司一直在采用 Apache Kafka 和 Apache Flink 等流技术。

当前生态系统中流数据的挑战

Apache Kafka 是一种使用发布者/消费者模型的实时事件日志。微服务、客户端和其他具有实时数据的系统将向 Kafka 主题产生事件，然后这些主题中的数据事件由作用于这些事件的其他实时服务消耗。Kafka 和其他流存储系统中的数据通常会为其数据事件设置一些过期时间，因此为了长期保存实时数据，组织通常会将这些数据加载到数据湖、数据仓库或数据Lakehouse中进行分析稍后的。然而来自物联网传感器、金融服务和网络交互的流数据可能会产生大量数据，而对这些数据进行原始计算可能会太慢或计算成本太高而不可行。为了解决这个问题，数据工程师通常会进行下采样或其他转换，为最终用户准备原始数据。对于数据Lakehouse，建议使用前面提到的奖章架构来准备一般消费的数据。对于数据湖，需要诸如数据仓库或某些 Spark/Hadoop 基础设施之类的计算引擎来将数据转换为更易于使用的结果。

需要不断重新计算的设置会带来固有的权衡。实时数据不断地到达数据湖或数据Lakehouse，因此用户需要在经常重新计算结果之间进行选择，这可能会导致计算成本高昂，或者重新计算频率较低，从而导致数据集过时。前面提到的设置的另一个问题是计算结果也需要存储。例如，在奖章架构中，原始数据在准备好进行类似仓库的查询之前需要经过多个处理步骤，这可能涉及多次存储相同的数据。这会导致更高的存储成本和更高的延迟，因为每个处理步骤都需要安排重新计算。数字化转型网www.szhzxw.cn

使用流处理来准备流数据

这就是 Apache Flink 等流处理解决方案可以发挥作用的地方。流处理作业是长期存在的，并且可以随着新数据事件的到来而增量地产生分析结果。将此与需要完全重新计算新结果数据集的奖章架构进行对比。通过向数据堆栈添加流处理，可以在流数据到达数据湖、数据仓库和数据Lakehouse层之前对流数据进行过滤、转换和聚合。这会降低计算成本并降低端到端延迟。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题包含：数字化转型网（www.szhzxw.cn）

1、数据相关外脑支持：100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社：与全球数据相关专家、实践者共同探讨相关问题，推动产业发展！

3、国际认证培训：目前已引进DAMA国际认证CDMP，其他国内外认证也在逐步引进中

4、典型案例参考：与数字化转型网数据要素X研习社社员一起学习典型案例，共探企业数据落地应用