数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据建模的定义:发现、分析和确定数据需求的过程,用一种称为数据模型的精确形式表示和传递这些数据需求。过程是循环迭代的,可能包括概念、逻辑和物理模型。数字化转型网www.szhzxw.cn
常见 6 种数据模型:关系模式。多维模式。面向对象模式。事实模式。时间序列模式。NoSQL 模式。根据描述详细程度不同,可分为:概念模型。逻辑模型。物理模型。P91
一、业务驱动因素:
提供有关数据的通用词汇表。
获取、记录组织内数据和系统的详细信息。
在项目中作为主要的交流沟通工具。
提供了应用定制、整合,甚至替换的起点。数字化转型网www.szhzxw.cn
数据建模和设计的目标:确认并记录不同视角对数据需求的理解,确保应用程序更符合当前和未来的业务需求,为更多数据应用或数据管理奠定基础,例如主数据管理和数据治理项目。P91
二、数据建模和设计活动:
规划数据建模
建立数据模型(创建概念、逻辑、物理模型)。
审核数据模型。
维护数据模型。P91
输入:现有的数据模型和数据库。数据标准。数据集。初始数据需求。原始数据需求。数据架构。企业分类法。
交付成果:概念、逻辑、物理数据模型。P91
方法:命名规范。数据库设计规范。数据库类型选择。数字化转型网www.szhzxw.cn
工具:数据建模工具。数据血缘工具。数据分析工具。元数据资料库(存储数据模型的描述性信息)。数据模型模式(基本模式。套件模式。整合模式)。行业数据模型。P91
度量指标:数据模型校验指标。P91
三、不同视角理解数据有助于:
格式化。简洁定义,规范结构,防止异常。数字化转型网www.szhzxw.cn
范围定义。帮助解释数据上下文的边界。
知识保留记录。为未来提供原始记录,助于更好的理解组织等,助于理解变更带来的影响。可被重复利用,帮助了解环境中的数据结构。建模师帮助他人理解信息蓝图。P91-92
数据建模最常用在系统开发与系统维护的工作环境中,也称为系统开发生命周期(SDLC)。直接结果在于对组织数据的理解。模型是现实中事物的一种表征或者想要创造事物的一种模式。
一个模型可以包含一个或多个图表。模型图可以使人们通过标准化的符号快速领会其内容。地图、组织架构图和建筑蓝图都是日常模型的例子。数据模型描述了组织已经理解或者未来需要的数据。数据模型包含一组带有文本标签的符号,这些符号试图以可视化方式展现数据需求并将其传递给数据建模人员,以获得一组特别的数据。数字化转型网www.szhzxw.cn
数据模型描述了组织已经理解或者未来需要的数据。数据模型包含一组带有文本标签的符号,这些符号试图以可视化方式展现数据需求并将其传递给数据建模人员,以获得一组特别的数据。
四、建模的数据类型:
类别信息,对事物分类或分配事物类型的数据,如颜色、型号。
资源信息, 实施操作流程所需的基本数据,如产品、客户。资源实体有时被称为参考数据。
业务事件信息, 在操作过程中创建的数据,如客户订单。
详细交易信息,通过销售系统、传感器生成,用于分析趋势,大数据。
此 4 类为静态数据,部分动态数据也可建模,如系统的方案。
数据模型组件:实体、关系、属性、域。
实体 Entity:在数据建模之外,有别于其他事物的一个事物。大多数数据模型都包含基本相同的组件:实体、关系、属性和域。在数据建模里,实体是一个组织收集信息的载体。名词:谁、什么、何时、何地地、为什么、怎么办、度量。一般用矩形代表,矩形中间是实体名称实体与实体实例:实体实例是特定实体的具体化或取值。数字化转型网www.szhzxw.cn
实体别名因模型类型不同而不同。关系模型用“实体”,维度模型用“维度”和“事实表”,面向对象类型使用“类”或“对象”;基本时间模型用“中心”、“卫星”、“链接”,关系型使用“文件”、“节点”。实体别名在概念模型中称 “概念”、“术语”。逻辑模型中称为“实体”。物理模型中称为“表”。实体的定义属于核心元数据。高质量的数据定义具有清晰、准确、完整三个特征。P93-95
关系(Relationship)是实体之间的关联。关系捕获概念实体之间的高级别交互、逻辑实体之间的详细交互、物理实体之间的约束。关系在维度模型中使用“导航路径”,在 NoSQL 中使用“边界”、“链接”。在概念和逻辑级别上用“关系”,在物理上使用“约束“、”引用“。关系在数据建模图上表现为线条。P95
关系的基数:表明一个实体与其他实体参与建立关系的数量。有“0、1、多”。P95
关系的元数:关系中涉及实体的数目。有一元关系、二元关系、三元关系。一元关系:递归关系、 自我引用关系。一对多:层级关系。多对多:网络关系或图表。P96 图。二元关系:涉及两个实体的关系。三元关系:涉及三个实体的关系。数字化转型网www.szhzxw.cn
外键 Foreign Key:在物理模型建模中表示关系。P96-97
属性 Attribute:定义、描述或度量实体某个方面的性质。属性可能包含域。属性在图中是在实体矩形内用列表描述。实体中属性的物理展现为表、视图、文档、图形或文件中的列、字段、标记或节点等。P97
标识符 Identifiers,键,是唯一标识实体实例的一个或多个属性的集合。可按键结构分为单一键、组合键、复合键、代理键,按功能分为候选键、主键、备用键。P97
五、键的结构类型:
单一键:唯一标识实体实例的一个属性。
代理键:也是单一键,表的唯一标识符, 通常是一个计数符,由系统自动生成,一个整数,含义与数值无关,技术性,不应对用户可见。数字化转型网www.szhzxw.cn
组合键:一组由两个或多个属性组成的集合,一起达到唯一标识一个实体实例。
复合键:包含一个组织键和至少一个其他单一键、组合键或非键属性。P97
六、键的功能类型:
超键:唯一标识实体实例的任何属性集。
候选键:标识实体实例的最小属性集合,可能包含一个或多个属性。最小意味着候选键的任意子集都无法唯一标识实体实例。一个实体可以有多个候选键。候选键可以是业务键(自然键)。
业务键:业务专业人员用于检索 单个实体实例的一个或多个属性。业务键和代理键是互斥关系。主键:被选择为实体唯一标识符的候选键。数字化转型网www.szhzxw.cn
备用键:是一个候选键,虽唯一,但没有被选为主键,可用于查找特定实体实例。P97-98
独立实体:其主键仅包含只属于该实体的属性,用矩形符号表示。非独立实体是指其主键于少包含一个其它实体的属性,至少含有一个标识关系用圆角矩形表示。P98
域 Domain:某一属性可被赋予的全部可能取值。提供一种将属性特征标准化的方法。域中所有的值都为有效的值。不在域中的值被称为无效的值。属性中不应当含有其指定的域以外的值。可 以附加的规则对域进行限制,限制规则称为约束。域可以使用多种不同的方式定义,如 1.数据类型(Data Type) 2.数据格式(Data Format) 3.列表(List) 4.范围(Range) 5.基于规则(Rule-Based)。P98-99
常见的 6 种数据建模方法是:
关系建模、维度建模、面向对象建模、基于事实建模、基于时间建模和非关系型建模。
每种建模方法都采用一些特定的表示法进行表达。
在关系建模方法中,三层模型仅适用于关系型数据库,而概念模型和逻辑型模型可适用于其他数据库。
基于事实的建模方法与此类似。对于维度建模方法,三层模型仅适用于关系型数据库和多维数据库。
面向对象的建模方法仅适用于关系型数据库和对象数据库。数字化转型网www.szhzxw.cn
基于时间的建模方法属于物理数据建模技术,主要用于关系型数据库环境中的数据仓库。
No SQL 方法严重依赖于底层数据库结构(文档、列、图或键值),因此也属于物理数据建模技术。P99-100
七、关系模型设计的目的是:
精确的表达业务数据,消除冗余。关系模型设计的目的是精确地表达业务数据,消除冗余。关系模型特别适合设计操作型的系统。数字化转型网www.szhzxw.cn
在关系建模中有几类不同的表示法可以用来表达实体间的关系,包括信息工程法 IE、信息建模的集成定义 IDEF1X、巴克表示法(Barker) 和陈氏表示法(Chen)。常见是信息工程法,采用三叉线(鸭掌模型)来表示基数。P101
维度建模:为了优化海量数据的查询和分析。使用轴表示法 Axis Notation 来建模。此模型中实体之间的连线表示用于说明业务问题的导航路径。
事实表:行对应于特定的数值型度量值,如金额。事实表占据了数据中大部分空间,且有大量的行。P101
维度表:表示业务的重要对象,主要留住文字描述。维度是事实表的入口点或链接。充当查询或报表约束的主要来源。高度反范式的,占总数的 10%左右。各个维度在每一行都有一个唯一的标识符,主要是代理键和自然键。维度也有些属性。渐变类的维度根据变化的速率和类型来管理变化,主要变化有覆盖、新行、新列。数字化转型网www.szhzxw.cn
雪花模型 Snowflaking:将星型模型中的平面、单表、维度结构规范为相应的组件层次结构或网络结构。
粒度:事实表中单行数据的含义或描述,是每行都有的最详细信息。关键步骤之一。
一致性维度:基于整个组织。
一致性事实:使用跨多个数据集市的标准化术语。
UML:统一建模语言。
基于事实的建模:对象角色建模 ORM 、ORM2。完全面向通信的建模 FCO-IM。
数据拱顶:是一组支持一个或多个业务功能领域,面向细节、基于时间且唯一链接的规范化表。数据拱顶模型是一种混合方式,综合了第三范式(3NF)和星型模式的优点。数据拱顶模型专门 为满足企业数据仓库的需求而设计的。有 3 种类型的实体:中心表、链接表、卫星表。设计的重点是业务的功能领域,中心表代表业务主键,链接表定义了中心表之间的事务集成,卫星表定义 了中心表主键的语境信息。P104-105
锚建模:适合信息结构和内容随时间发生变化的情况。提供用于概念建模的图形语言,能扩展处理临时数据。它有锚、属性、连接、节点四个基本建模概念。锚模拟的是实体和事件。属性模拟了锚的特征。连接表示了锚之间的关系。节点模拟共享的属性。数字化转型网www.szhzxw.cn
八、非关系型数据库 NoSQL:
文档数据库。
键值数据库。只有两列中存储。
列数据库。最接近关系型数据库。可使用更复杂的数据类型,如未格式化的文本和图像。它将列存储在自己的结构中。
九、数据模型级别:
概念模型。企业的“真实世界”视图,代表企业当前的最佳模式或经营方式。
外模式。
内模式。数据的机器视图。
概念数据模型 CDM。用一系列相关主题域的集合来描述概要数据需求。概念数据模型仅包括给定的领域和职能中基础和关键的业务实体,同时也给出实体和实体之间关系的描述。
逻辑数据模型 LDM。对数据需求的详细描述,通常用于支持特定用法的语境中(如应用需求)。不受任何技术或特定实施条件的给。在关系逻辑数据模型中,通过添加属性来扩展。属性通过规 范化技术被分配给实体。每个属性和它所在实体的主键之间都有非常强的关系。在很多情况下, 维度型逻辑数据模型是维度型概念数据模型的完全属性透视图。关系型逻辑数据模型捕获业务流程的规则,而维度型逻辑数据模型捕获业务问题以确定业务流程的运行状况和性能。数字化转型网www.szhzxw.cn
物理数据模型 PDM。描述一种详细的技术解决方案,通常以逻辑模型为基础,与某一类硬件、 软件和网络工具相匹配,与特定的技术有关。
规范模型。物理模型的一个变种,用于描述系统之间的数据移动。该模型描述了在系统之间作为数据报或消息传递的数据结构。通用以实现重用和简化接口需求。
视图。虚拟表,提供了一种从多张包含或引用实际属性的表中查看数据的方法。
分区。拆分表的过程。执行分区是为了方便存档和提高检索 性能。分区可以是垂直(按列分组)或水平(按行分组)
逆规范化:将符合范式规则的逻辑数据模型经过慎重考虑后,转换成一些带冗余数据的物理表。逆规范化处理由于存在数据冗余而引入了产生数据错误的风险。一般逆规范化只会提高数据库查询性能或提升用户安全操作。原因:
① 提前组合来自多个其他表的数据,以避免代价高昂的运行时连接。
② 创建更小的、预先过滤的数据副本,以减少昂贵的运行时计算和/或大型表的扫描。
③ 预先计算和存储昂贵的数据计算结果,以避免运行时系统资源竞争。在维度建模中,常称为折 叠、合并。数字化转型网www.szhzxw.cn
如果每个维度都被折叠为一个结构,生成的数据模型称为星型模型,如果维度没有被折叠,则生成的模型为雪花模型。
规范化(Normalization):是运用规则将复杂的业务转化为规范的数据结构的过程。目标是保证每个属性只在一个位置出现,以消除冗余或冗余导致的不一致性。规范化规则根据主键和外键整理属性。规范化规则可归类到不同规范层次,对每一个层次可应用更细的方式和规范性来搜索正确的主键和外键。每个级别由一个独立的范式组成,并且每个相继级别不需要包含以前的级别。通常要求达到第三范式即可。平时 BCNF、4NF、5NF 少见。数字化转型网www.szhzxw.cn
第一范式 1NF:每个实体都有一个有效的主键,每个属性都依赖于主键。
第二范式 2NF:每个实体都有最小的主键,每个属性都依赖于完整的主键。
第三范式 3NF:每一实体都没有隐藏的主键,属性都不依赖于键值外的任何属性(仅依赖于完整的主键)。模型的规范化通常要求达到第三范式。数字化转型网www.szhzxw.cn
Boyce/Codd 范式(BCNF):解决交叉的复合候选键问题。候选键是主键或备用键。
第四范式 4NF:将所有三元关系分解为二元关系,直到这些关系不可再分。
第五范式 5NF:将实体内部的依赖关系分解为二元关系,所有联结依赖部分主键。
抽象化:将细节移除,在更大情况下扩展适用性,同时保留概念或主题的本质属性。
泛化:将实体公共属性和关系分组为超类实体。数字化转型网www.szhzxw.cn
特化:将实体中的分区属性分类为子类实体,通常基于实体实例中的属性值。超类也可以使用角色或分类创建子类,将实体的实例按功能分离到组中。子类关系意味着超类的所有属性都被子类继承,可以减少冗余。
数据建模和设计质量管理:数据模型和数据库设计应是组织短期需求和长期需求之间的合理平衡。主要有:
开发数据建模和设计标准。
评审数据模型及数据库设计质量。
管理数据模型版本与集成。数字化转型网www.szhzxw.cn
度量指标:使用数据模型计分卡,提供了对模型质量的总体评估方法,并明确指出了针对模型的改进方案。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于云祁的数据江湖;编辑/翻译:数字化转型网Jack。








