数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据Lakehouse将数据仓库和数据湖的功能合并到一个系统中,因此得名。随着数据仓库开始添加更多数据湖中的功能,以及数据湖开始添加更多数据仓库中的功能,这两个概念之间的区别变得有些模糊。在数据Lakehouse之前,组织通常需要一个用于存储的数据湖和一个用于处理的数据仓库,但这种设置最终可能会给数据团队带来大量开销,因为来自一个位置的数据通常需要处理或复制到另一个位置数据工程师执行完整分析的其他位置。通过将这两个概念合并到一个系统中,数据Lakehouse的目标是消除这些孤岛并获得两个世界的好处。与数据湖类似,在数据湖房中存储数据仍然便宜、可扩展且灵活,但还提供元数据层来在必要时强制执行架构和数据验证等操作。这使得数据Lakehouse仍然能够像数据仓库一样在查询和分析方面保持高性能。数字化转型网www.szhzxw.cn
由于数据通常以其原始格式加载到数据Lakehouse中,因此通常使用奖章架构。奖章架构描述了一系列查询或处理步骤,用于将原始数据(铜牌)转换为过滤/清理的数据(银牌),再转换为业务就绪的聚合结果(金牌),其中可以轻松查询黄金数据集以用于 BI 目的。
虽然系统成为数据Lakehouse而不是数据湖或数据仓库的实际区别有些细微差别,但具有数据Lakehouse功能的流行云供应商包括 Databricks Lakehouse Platform、Snowflake、Amazon Redshift Spectrum 和 Google Cloud BigLake。虽然数据Lakehouse可以处理广泛的用例,但它们的管理可能很复杂,并且仍然需要熟练的数据专家才能充分发挥其优势。
实时流数据的影响
随着大数据技术的不断发展,对实时数据产品的需求不断增加。用户越来越习惯于立即获得结果,为了支持这些用例,公司一直在采用 Apache Kafka 和 Apache Flink 等流技术。
当前生态系统中流数据的挑战
Apache Kafka 是一种使用发布者/消费者模型的实时事件日志。微服务、客户端和其他具有实时数据的系统将向 Kafka 主题产生事件,然后这些主题中的数据事件由作用于这些事件的其他实时服务消耗。Kafka 和其他流存储系统中的数据通常会为其数据事件设置一些过期时间,因此为了长期保存实时数据,组织通常会将这些数据加载到数据湖、数据仓库或数据Lakehouse中进行分析稍后的。然而来自物联网传感器、金融服务和网络交互的流数据可能会产生大量数据,而对这些数据进行原始计算可能会太慢或计算成本太高而不可行。为了解决这个问题,数据工程师通常会进行下采样或其他转换,为最终用户准备原始数据。对于数据Lakehouse,建议使用前面提到的奖章架构来准备一般消费的数据。对于数据湖,需要诸如数据仓库或某些 Spark/Hadoop 基础设施之类的计算引擎来将数据转换为更易于使用的结果。
需要不断重新计算的设置会带来固有的权衡。实时数据不断地到达数据湖或数据Lakehouse,因此用户需要在经常重新计算结果之间进行选择,这可能会导致计算成本高昂,或者重新计算频率较低,从而导致数据集过时。前面提到的设置的另一个问题是计算结果也需要存储。例如,在奖章架构中,原始数据在准备好进行类似仓库的查询之前需要经过多个处理步骤,这可能涉及多次存储相同的数据。这会导致更高的存储成本和更高的延迟,因为每个处理步骤都需要安排重新计算。数字化转型网www.szhzxw.cn
使用流处理来准备流数据
这就是 Apache Flink 等流处理解决方案可以发挥作用的地方。流处理作业是长期存在的,并且可以随着新数据事件的到来而增量地产生分析结果。将此与需要完全重新计算新结果数据集的奖章架构进行对比。通过向数据堆栈添加流处理,可以在流数据到达数据湖、数据仓库和数据Lakehouse层之前对流数据进行过滤、转换和聚合。这会降低计算成本并降低端到端延迟。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 漫谈大数据;编辑/翻译:数字化转型网Jack。








