数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据仓库的特点是本身不生产数据,也不最终消费数据。所以数仓分层是由于数据流入流出数仓的过程以及数仓的特点决定的。数据分层每个企业根据自己的业务需求可以分成不同的层次,但是最基础的分层思想,理论上数据分为三个层,操作型数据层(ODS)、数据仓库层(DW)和数据应用层(DM)。
ODS层-操作数据存储
ODS全称是Operational Data Store,即操作数据存储;ODS层是最接近数据源中数据的一层,数据源中的数据,经过抽取、洗净、传输,也就说传说中的ETL之后,装入本层;一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。历史数据一般保存3-6个月后需要清除,以节省空间。但不同的项目要区别对待,如果源系统的数据量不大,可以保留更长的时间,甚至全量保存;数据在装入本层前需要做以下工作:去噪、去重、提脏、业务提取、单位统一、砍字段、业务判别。
DW层-数据仓库层
DW全称是Data Warehouse,即数据仓库,是数据仓库的主体。DW层将ODS层中获得的数据按照主题建立各种数据模型。在这里,我们需要了解四个概念:维度(dimension)、事实(Fact)、指标(Index)和粒度(Granularity)。但是我们需要知道DW的数据应该是由ODS(各业务系统数据)的数据经过清洗、合并后得到的,其主要分为事实表(FACT)和维度表(DIM)。在DW层,同一个属性,只能被一张表唯一定义,即维度一致性。且DW所有的数据理论上均应该可以直接使用,而不用考虑其数据来源、数据统计口径、数据是否正确。数字化转型网www.szhzxw.cn
数据仓库层从上到下,又可以分为3个层:数据细节层DWD、数据中间层DWM、数据服务层DWS。
DWD层-数据明细层
DWD层的关键工作包括以下内容:业务相关表关联、数据清洗、数据口径统一。DWD层最关键的工作是将ODS层数据按照业务主题进行重组,存储一致的、准确的、干净的数据,但是需要保留和明细数据意愿的数据维度。
a.数据清洗:ODS层数据装入DWD仓层时,需要进行数据清洗,比如:清除无效数据(删除业务系统中明显偏离正常水平的数据)、清除重复数据(业务系统数据表的主键、用户ID等信息只保留一份即可)、空值处理(后续数据应用中,null值处理难度大,一般会将null值调整为0);
b.数据口径统一:DWD层数据需要进行数据规整,当某一字段在各个业务系统的口径不统一时,我们需要和业务团队进行充分沟通,对以哪一个业务系统口径为标准达成统一,再形成DWD层的数据字典;
DWM层-数据中间层
该层会在DWD层的数据基础上,对数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工处理数据。简单来说,就是对通用的维度进行聚合操作,算出相应的统计指标,方便复用。数字化转型网www.szhzxw.cn
DWS层-数据服务层
该层数据表会相对比较少,大多都是宽表(一张表会涵盖比较多的业务内容,表中的字段较多)。按照主题划分,如订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP分析,数据分发等。
事实表(Fact Table)
事实表是指存储有事实记录的表,比如系统日志、销售记录等。事实表的记录在不断地增长,比如电商的商品订单表,就是类似的情况,所以事实表的体积通常是远大于其他表。
维度表(Dimension Table)
维度表或维表,有时也称查找表(Lookup Table),是与事实表相对应的一种表;它保存了维度的属性值,可以跟事实表做关联,相当于将事实表上经常重复出现的属性抽取、规范出来用一张表进行管理。维度表主要是包含两个部分:
高基数维度数据:一般是用户资料表、商品资料表类似的资料表,数据量可能是千万级或者上亿级别
低基数维度数据:一般是配置表,比如枚举字段对应的中文含义,或者日期维表等;数据量可能就是个位数或者几千几万。
常见的维度表有:日期表(存储与日期对应的周、月、季度等的属性)、地点表(包含国家、省/州、城市等属性)等。数字化转型网www.szhzxw.cn
DM层-数据应用层
DM全称为Date Market,即数据集市或宽表。DM层为面向最终应用的主题层,一般依据前端报表/业务包需求进行设计,所以DM层表不需要考虑复用,每一张DM表仅为一张报表所服务;我们需要对DWS层的基础指标进行加工,比如:①基础指标关联维度表;②多个基础指标计算得到衍生指标,并且将报表中需要应用的多个指标都梳理至同一张数据表内,生成字段比较多的宽表,用于提供后续的业务查询,其主要作用是提升报表查询性能。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 数据集成与治理;编辑/翻译:数字化转型网Jack。








