数智化转型网szhzxw.cn 数字化转型报告 数据治理体系完整指南

数据治理体系完整指南

数据治理相关干货可加入数字化转型网数据要素X研习社

一、数据治理体系

数据治理体系内容从两个维度来看:

1)数据治理难点痛点:数据脉络不清晰、数据汇聚能力不足、数据管控能力薄弱、数据治理体系不完善、开放形式不完善。 数字化转型网(www.szhzxw.cn)

2)数据治理5个核心:理、聚、管、治、用。

数据治理体系主要包含内容有数据标准、元数据、数据建模、数据集成、数据生命周期、数据质量、数据开放、数据安全及数据应用。

二、元数据

1. 元数据解决的问题

有什么数据 – 数据是什么 – 来自何处 – 如何流转 – 谁可以访问

其本质也是一种数据,开展元数据管理工作是开展数据资产管理的基础。

2. 元数据分类

业务元数据:描述数据系统中业务领域相关概念、关系和规则的数据;包括业务术语、信息分类、指标、统计口径等。(从业务角度描述的)

技术元数据:描述数据系统中技术领域相关的概念、关系和规则的数据;包括数据平台内对象和数据结构的定义、源数据到目的数据的映射、数据转换加工过程的描述等。

管理元数据:描述数据系统中管理领域相关概念、关系、规则的数据;主要包括人员角色、岗位职责、管理流程等信息。 数字化转型网(www.szhzxw.cn)

3. 元数据模型成熟度

第一阶段:需要手动管理元数据,即在数据治理流程外需要额外增加的步骤

第二阶段:在数据探查阶段自动生成元数据。

第三阶段:自动构建数据流转元数据。

4. 元数据建设目标和管理手段

5. 元数据管理

元数据管理方法:

元数据管理能力:

三、数据标准

常见的数据标准包含基础数据标准和指标数据标准。

主要构成:业务定义+管理信息+技术属性

数据标准包含内容包括:主题&分类+标注属性+标准代码

2. 数据标准类型(举例)

不同行业的标准不同,这里仅是举例说明。

如:性别、身份证、金额、手机号码、行业、级别的分级分类的代码等

2. 数据标准管理体系涉及思路

数据标准来源于业务,服务于业务。

依据已有标准进行建设

基础类数据标准:业务化视角

指标类数据标准:从管理角度出发


数据标准的制定是一个以业务管理为主导、外部要求为依据、企业现状为基础的兼容过程。

3. 数据标准架构体系

通过统一标准和架构规范,统一指标、统一术语、统一模型、统一信息项,解决数据口径解释不清晰、业务和数据理解不一致等问题,实现数据在架构层面的统一。


但并非所有基础类数据都要建立标准,纳入标准的数据项需要满足共享性、重要性和可行性的准入原则。

4. 管理类数据标准建设原则

定义:分析类数据标准的业务含义和所适用的业务场景保持一致。

口径:分析类数据标准的业务取值范围、计算方法和编码规则等业务规则保持一直。

名称:分析类数据标准中文名称和英文名称均采用统一命名规则,表示相同业务含义的信息项名称应保持一直。

参照:各分析类数据标准项标准化时参考的外部标准(包括国际标准、国家标准和行业标准),内部业务制度和业务规范应保持一致。 数字化转型网(www.szhzxw.cn)

来源:每个分析类数据标准都应有权威的来源系统;其他系统使用该信息时应直接取用权威系统结果,以保持一致。

以下为某企业数据标准体系框架示例,分为基础类数据标准和管理类数据标准

5. 数据标准生命周期管理

四、数据建模

1. 概念

企业级数据模型建设方法:从全局入手,涉及标准化数据模型,构建统一的数据模型管控体系,丰富和完善数据实体相关属性信息,梳理数据实体之间的逻辑关系,最终形成不同主题域数据模型。

2. 数据模型分类

概念数据模型(Conceptual Data Model):是一种面向用户、面向客观世界的模型,主要用来描述世界的概念化结构,它是数据库的设计人员在设计的初始阶段,摆脱计算机系统及DBMS的具体技术问题,集中精力分析数据以及数据之间的联系等,与具体的数据管理系统(Database Management System,简称DBMS)无关。概念数据模型必须换成逻辑数据模型,才能在DBMS中实现。

逻辑数据模型(Logical Data Model):是一种面向数据库系统的模型,是具体的DBMS所支持的数据模型例如层次数据模型、网状数据模型、关系型数据模型等,此模型既要面向用户,又要面向系统,主要用于数据库管理系统的实现。 数字化转型网(www.szhzxw.cn)

物理数据模型(Physical Data Model):是一种面向计算机物理表示的模型,描述了数据在存储介质上的组织结构,它不但与具体的DBMS有关,而且还与操作系统和硬件有关。每一种逻辑数据模型在实现时都有其对应的物理数据模型。DBMS为了保证其独立性与可移植性,大部分物理数据模型的实现工作由系统自动完成,而设计者只设计索引、聚集等特殊结构。

3. 数据模型生命周期

4. 案例

五、数据集成

5. 概念

数据集成:主要是指基于企业分散的信息系统的业务数据进行再集中、再统一管理的过程,是一个渐进的过程,主要有新的、不同的数据产生,就不断有数据集成的步骤和方案执行。数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机的集中,从而为企业数据共享提供基础支撑。

5. 数据集成整体架构

六、数据生命周期

1. 阶段划分

按照两个大的阶段来划分:数据治理规划阶段+数据生命周期管理阶段。

数据治理规划阶段

  • 业务规划定义阶段:业务规划、业务标准设计;
  • 应用设计实现阶段:数据模型设计、应用标准设计、应用设计实现、数据录入。

数据生命周期管理阶段

  • 数据创建:利用数据模型保证数据完整、执行数据标准保证数据准确、加入数据质量检查创建准确、保证数据在合理的系统生成;
  • 数据使用:利用元数据监控数据使用、利用数据标准保证数据准确、利用数据质量检查加工准确、确保数据在合理的系统使用、控制数据的派生;
  • 数据归档:利用评估手段保证归档时机、分数据类型规档数据;
  • 数据销毁:利用评估手段保证数据销毁时机,分数据类型销毁数据。

要求:

  • 满足对历史数据查询相关政策和管理制度的要求;
  • 满足业务操作和管理分析的需要;
  • 满足审计管理要求;
  • 减少数据冗余,提高数据一致性;
  • 存储、硬件、运维等方面基础设施投入;
  • 提升应用系统性能,提高响应速度。

2. 管理要求和手段

3. 管理规范和管理办法

七、数据质量

1. 数据质量管理目标

  1. 根据数据消费者的需求,开发一种满足数据质量要求的管理方法
  2. 定义数据质量控制的标准和规范,并作文整个数据生命周期的一部分
  3. 定义和事实测量、监控和报告数据质量水平的过程
  4. 根据数据消费者要求,通过改变流程和系统,以及参与可显著改善数据质量的活动,识别和倡导提高数据质量的机会

2. 生命周期

计划阶段:数据质量团队评估已知的问题范围、影响和优先级,并评估解决这些问题的备选方案。

执行计划:数据质量团队负责努力解决引起问题的根本原因,并做出对持续监控数据的计划(技术问题、流程问题)。 数字化转型网(www.szhzxw.cn)

检查阶段:这一阶段包括积极监控按要求评测的数据质量。

处理阶段:处理和解决新出现的数据质量问题的活动。

3. 数据质量维度

4. 数据质量常用工具

八、数据开发

围绕数据价值通道(数据资产 -> 数据服务 -> 业务应用)来设计数据开发的全流程管理,推动数据价值的释放。 数字化转型网(www.szhzxw.cn)

1. 数据资产

数据资产的应用实现方式,打通基础数据链条,实现联通协同,提升数据价值。

数据资产将与元数据、数据质量、ETL等模块通过接口互通,根据需求获取数据资产实体信息和数据资产监控指标,实现资产跨平台串联,增强资产在监控运维和价值评估中的数据协同。

数据资产生命周期:注册、变更、监控、下线。

对数据资产建立从注册到下线的全过程生命周期管理,监控数据资产的变更和使用情况,对数据资产何时需要重点治理、何时需要版本变更、何时需要下线释放资源做出合理的预警提示。

2. 数据服务

围绕数据和业务主题进行资产梳理,构建数据和业务的统一标准和规范,帮助企业实现对全局数据资产的管控,并为应用工具提供统但多样化的数据服务,从而更快、更好的驱动业务增长,发挥数据价值。

数据服务技术架构: 数字化转型网(www.szhzxw.cn)

九、数据安全

数据安全体系包含:数据安全技术体系+安全管理体系+安全运营体系。

十、ETL和ELT10.

1. 含义

ETL架构按其字面含义理解就是按照E-T-L这个顺序流程进行处理的架构:先抽取、然后转换完成后加载到目标数据库中。在ETL架构中,数据的流向是从源数据流到ETL工具,ETL工具是-个单独的数据处理引擎,一般会在单独的硬件服务器上,实现所有数据转化的工作,然后将数据加载到目标数据仓库中。如果要增加整个ETL过程的效率,则只能增强ETL工具服务器的配置,优化系统处理流程(一般可调的东西非常少)。

ETL架构的优势:

  • 可以分担数据库系统的负载(采用单独的硬件服务器)
  • 相对于ELT架构可以实现更为复杂的数据转换逻辑
  • 采用单独的硬件服务器
  • 与底层的数据库存储无关

ELT架构的优势:

  • 可以保持所有的数据始终在数据库当中,避免数据的加载和导出,从而保证效率,提高系统的可监控性
  • 可以根据数据的分布情况进行并行处理优化,并可以利用数据库的固有功能优化磁盘I/O
  • 通过对相关数据库进行性能调优,ELT过程获得3到4倍的效率提升比较容易

2. ETL模式

触发器模式:

触发器方式是普遍采取的一种增量抽取机制。该方式是根据抽取要求,在要被抽取的源表上建立插入、修改、删除3个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个增量日志表ETL的增量抽取则是从增量日志表中而不是直接在源表中抽取数据,同时增量日志表中抽取过的数据要及时被标记或删除。为了简单起见,增量日志表一般不存储增量数据的所有字段信息,而只是存储源表名称更新的关键字值和更新操作类型(insert、update或delete),ETL增量抽取进程首先根据源表名称和更新的关键字值,从源表中提取对应的完整记录,再根据更新操作类型,对目标表进行相应的处理。

增量字段模式:

增量字段方式来捕获变化数据,原理就是在源系统业务表数据表中增加增量字段,增量字段可以是时间字段,同时也可以是自增长字段(如oracle的序列),设计要求就是源业务系统中数据新增或者被修改时,增量字段就会产生变化,时间戳字段就会被修改为相应的系统时间,自增长字段就会增加。每当ETL工具进行增量数据获取时,只需比对最近一次数据抽取的增量字段值,就能判断出来哪些是新增数据,哪些是修改数据。这种数据抽取方式的优点就是抽取性能比较高,判断过程比较简单,最大的局限性就是由于某些数据库在进行设计的时候,未考虑到增量字段,需要对业务系统进行改造,基于数据库其他方面的原因还有可能出现漏数据的情况。

全量同步模式:

全量同步又叫全表删除插入方式,是指每次抽取前先删除目标表数据,抽取时全新加载数据。该方式实际上将增量抽取等同于全量抽取。对于数据量不大,全量抽取的时间代价小于执行增量抽取的算法和条件代价时,可以采用该方式。 数字化转型网(www.szhzxw.cn)

日志对比模式:

日志比对的方式是通过获取数据库层面的日志来捕获到变化的数据,不需要改变源业务系统数据库相关表结构,数据同步的效率比较高,同步的及时性也比较快,最大的问题就是前面所提到的不同的数据库的数据库日志文件结构存在较大的差异性,实施分析起来难度比较大,同时需要具备访问源业务库日志表文件的权限,存在一定的风险性,所以这种方式有很大的局限性。

日志比对方式中比较成熟的技术是Oracle的CDC(Changed Data Capture)技术,作用同样是能够捕获到上一次抽取之后的产生的相关变化数据,当CDC对源业务表进行新增、更新和删除等相关操作的时就可以捕获到相关变化的数据,相对于增量字段方式,CDC方式能够较好的捕获到删除数据,并写入相关数据库日志表,然后再通过视图或者别的某种可操作的方式将捕获到的变化同步到数据仓库当中去。

不同模式的对比:

3. 离线和实时

实时数据主要是指的数据延迟小,例如毫秒、秒、分钟级的延迟,小时级的延迟称之为“准实时数据“更为准确了。例如,你熬夜赶在双十一晚上的最后1分钟,成功付了尾款,在双十一实时统计大屏中,GMV的值又滚动了一下。 数字化转型网(www.szhzxw.cn)

实时数据处理,也称之为“流式”数据处理,数据像水流一样每时每刻源源不断地产生后,就立即被清洗处理。这就好比,穿的袜子脏了就洗,今日事今日毕,而不是都攒着。实时数据一般是业务端即席产生(水源),通过Kafka等消息通道(水流管道)进行传输,利用Storm或flink等实时组件进行消费处理。例如,双十一统计每秒钟的订单数。

离线数据一般是指T-1的日期,例如今天的日期T=2021-11-12,那么数据结果中,能够体现的业务数据只包括前一天的(昨日数据)。有人也称之为T+1的数据,把数据日期当作T,叫法不同,有时候可能也是小时级的,但本质都是指的今天处理的数据最新日期是截止昨天。

离线数据处理也称之为“批处理”,数据产生之后,不会立即进行清洗,而是在固定的周期进行ETL,例如每天在凌晨12:00之后,处理前一天产生的数据。比如有的舍友喜欢将袜子攒起来,一个星期洗一次,这就是批处理的思想。

离线数据处理技术是大数据发展更早,目前已经非常成熟的一套体系,最常见是Hadoop,它是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据外理。核心组件是HDFS、MapReduce、Hive。以HDFS进行数据存储,Mapreduce计算,Hive进行数据仓库建设或者基于HiveSQL进行数据查询。 数字化转型网(www.szhzxw.cn)

使用场景。数据的应用场景总结下来其实就是两个,数据分析和数据应用。

本文来源松子聊数据,由数据学堂整理编辑,转载请注明出处

更多数据治理相关干货可加入数字化转型网数据要素X研习社

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于数字化转型网;编辑/翻译:数字化转型网宁檬树。

数字化资料下载-思思
此图片的alt属性为空;文件名为%E5%AE%98%E7%BD%91%E8%AF%BB%E8%80%85%E7%BE%A42.png
免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/32300.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部