数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

实时查询
流批一体技术的需求自然来源于实时计算的发展。如今越来越多的服务面向ToC用户,实时性需求越来越强,这些业务包括了风控事件处理,搜广推的实时特征计算,以及指标监控等等,实时数仓的开发也愈发受到企业的重视和投入。数字化转型网www.szhzxw.cn
目前而言,业界最关心的数据仓库核心性能指标是查询的实时性。性能指标设置对于业务成长非常重要,背后的考虑因素有两个,一个是性能本身会导致数据产出的延迟,另一个是性能差一般也代表着资源消耗大。
提高数据处理实时性的解决方案类型主要有两种,包括:数据和业务逻辑优化(主要指数据治理)、底层计算引擎优化。
其中,底层计算引擎的优化也是大企业比较常用的方法,常用的选型包括Spark、Flink、Blink等。
但严格来说,对于大企业而言,一般不存在选型的概念。专家表示,因为大企业一般都有成熟的大数据平台,里面包括了采集、模型设计等模块,经过优化和协同,这些组件都已经封装成了一套完整的体系。
但对于中小企业来说,他们一般很难抉择如何做具体的选型,一般都是考虑模仿大企业的架构,或者直接购买大企业的平台产品。
流式ETL
除了查询以外,数仓中另一个消耗资源较大的流程是ETL。在业界,数仓比较常用的ETL模式是增量ETL和全量ETL。
数仓ETL通常面临的核心挑战是高效实施,也就是如何用最低资源产出最多成果,另一个是数据质量。
除了增量ETL、全量ETL之外,还有一种ETL的模式是流式ETL,自然也是源于实时计算的业务需求,据专家介绍,目前在业界的成熟度还比较低。数字化转型网www.szhzxw.cn
整体衡量
专家表示,对数据模型的优劣判断(比如数据的业务覆盖率、数据的业务使用率等),目前行业内还缺乏统一的、成熟的衡量指标。而数据模型是数仓的核心,其优劣判断关系到数仓整体能力的判断,重要性很高。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于五分钟学大数据;编辑/翻译:数字化转型网Jack。








