数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

谈数仓,就要聊到关于数仓的几个常见问题,那我们下面带着这几个问题一起来细聊下数仓。
一、 数仓为什么要分层?
用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据;不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。数字化转型网www.szhzxw.cn
数据仓库之父 Bill Inmon对数据仓库做了定义——面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。从定义上来看,数据仓库的关键词为面向主题、集成、稳定、反映历史变化、支持管理决策,而这些关键词的实现就体现在分层架构内。
一个好的分层架构,有以下好处:
清晰数据结构:每一个数据分层都有对应的作用域,在使用数据的时候能更方便的定位和理解。
数据血缘追踪:提供给业务人员或下游系统的数据服务时都是目标数据,目标数据的数据来源一般都来自于多张表数据。若出现目标数据异常时,清晰的血缘关系可以快速定位问题所在。而且,血缘管理也是元数据管理重要的一部分。
减少重复开发:数据的逐层加工原则,下层包含了上层数据加工所需要的全量数据,这样的加工方式避免了每个数据开发人员都重新从源系统抽取数据进行加工。数字化转型网www.szhzxw.cn
数据关系条理化:源系统间存在复杂的数据关系,比如客户信息同时存在于核心系统、信贷系统、理财系统、资金系统,取数时该如何决策呢?数据仓库会对相同主题的数据进行统一建模,把复杂的数据关系梳理成条理清晰的数据模型,使用时就可避免上述问题了。
屏蔽原始数据的影响:数据的逐层加工原则,上层的数据都由下一层的数据加工获取,不允许跳级取数。而原始数据位于数仓的最底层,离应用层数据还有多层的数据加工,所以加工应用层数据的过程中就会把原始数据的变更消除掉,保持应用层的稳定性。
二、数据仓库分几层最好?
目前市场上主流的分层方式眼花缭乱,常见的有:ODS、DWD、DIM、DWS、ADS。好多同学可能看了上面的分层介绍后觉得分层不就是那么回事吗?可是一到实际的场景中就犯了难,ODS中还好说,可是后面要分几层,每一层的原则和依赖怎么定义?针对一个具体表是放在ADS层合适呢还是放在DWS层合适呢?下面就来跟大家说说如何对你的数仓分层。
首先我们要记住一个原则:不要为了分层而去分层,盲目的分层不但会造成数仓中表的混乱而且造成很大的资源浪费更是给后面的数据治理留下的无穷的隐患。
分层的目的是让数据更规范、清晰更易用而不是为了让层次更多。两点要牢记的是越是往上层数据的粒度就越粗,所表达的内容就越有限,所以不是层级越多越好;本层的表一般只允许依赖他紧邻的上一层,应严格避免同层依赖,否则极易产生循环依赖。
知道了上面的原则和要点,我的建议是如果业务场景比较简单且数据表也不是很多,三层就足够了;如果业务场景和过程比较复杂,指标口径需要很多表关联才能计算的话建议四层或者更多的层。不要为了分层而分层也不要被这个层所层层困住。数字化转型网www.szhzxw.cn
三、数据仓库建模方法有哪些?
数据仓库的建模方法有很多种,每一种建模方法代表了哲学上的一个观点,代表了一种归纳、概括世界的一种方法。数据仓库常见的建模方法有:范式建模、维度建模、Data Vault 模型、Anchor模型等,每种方法从本质上将是从不同的角度看待业务中的问题。
范式建模法范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由 Inmon 所提倡,主要解决关系型数据库的数据存储,利用的一种技术层面上的方法。数字化转型网www.szhzxw.cn
目前,我们在关系型数据库中的建模方法,大部分采用的是三范式建模法。范式 是符合某一种级别的关系模式的集合。构造数据库必须遵循一定的规则,而在关系型数据库中这种规则就是范式,这一过程也被称为规范化。
目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、Boyce-Codd范式(BCNF)、第四范式(4NF)和第五范式(5NF)。
在数据仓库的模型设计中,一般采用第三范式。一个符合第三范式的关系必须具有以下三个条件 :每个属性值唯一,不具有多义性 ;每个非主属性必须完全依赖于整个主键,而非主键的一部分 ;每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。
根据 Inmon 的观点,数据仓库模型的建设方法和业务系统的企业数据模型类似。在业务系统中,企业数据模型决定了数据的来源,而企业数据模型也分为两个层次,即主题域模型和逻辑模型。
同样,主题域模型可以看成是业务模型的概念模型,而逻辑模型则是域模型在关系型数据库上的实例化。
实体建模法实体建模法并不是数据仓库建模中常见的一个方法,它来源于哲学的一个流派。从哲学的意义上说,客观世界应该是可以细分的,客观世界应该可以分成由一个个实体,以及实体与实体之间的关系组成。数字化转型网www.szhzxw.cn
那么我们在数据仓库的建模过程中完全可以引入这个抽象的方法,将整个业务也可以划分成一个个的实体,而每个实体之间的关系,以及针对这些关系的说明就是我们数据建模需要做的工作。
虽然实体法粗看起来好像有一些抽象,其实理解起来很容易。即我们可以将任何一个业务过程划分成 3 个部分,实体,事件,说明。
如果我们描述一个简单的事实:“小明开车去学校上学”。以这个业务事实为例,我们可以把“小明”,“学校”看成是一个实体,“上学”描述的是一个业务过程,我们在这里可以抽象为一个具体“事件”,而“开车去”则可以看成是事件“上学”的一个说明。好了,本次就给大家分享到这里,下次给大家聊聊维度建模。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于派可数据;编辑/翻译:数字化转型网Jack。








