数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据质量是数据治理的一项重要工作,数据质量低下会导致不正确的信息,不利于组织提升业务业绩。示意图:

一、概念
数据质量与信息质量同义,高质量的数据需要有效的数据质量管理工作提供保障。
数据质量管理工作包括校正数据,以及管理数据创建、数据转换和数据传输的整个生命周期。数据质量管理是一个持续的过程,要将数据质量管理和质量提升等流程制度化。同时,在数据处理过程中,要采取措施校正发现的问题,并消除问题的根源。
数据质量管理包括数据质量分析、识别数据异常、定义业务需求及相关业务规则,在必要的时候对已经定义的数据质量规划进行合规性检查和监控,以及数据解析、标准化、清洗和整合。同时还包括问题跟踪,对已经定义的数据质量服务水平、合规性等进行监控。
数据质量要求为定义数据质量框架提供了必要的信息。数据质量框架包括定义需求、定义检查策略、定义度量和定义反映数据质量和绩效变化的监控措施。
常见的数据质量管理方法:戴明环(应用于数据质量管理时)
- 制订数据质量现状评估计划和识别数据质量度量的关键指标;(计划)
- 实施度量和提升数据质量的流程;(实施)
- 监控和度量根据业务预期定义的数据质量水平;(监控)
- 执行解决数据质量问题的行动方案,提升数据质量,更好的满足业务预期;(行动)
组织提升数据质量意识,不仅仅需要工作人员了解数据质量问题的重要性,还需要组织利益相关者和管理层的支持。并且数据质量不能仅依靠技术手段解决,需要采取系统化的数据质量管理方法对组织内数据质量的全面洞察。为数据质量建立数据治理框架,通过一系列的流程和程序为数据管理的各个方面贯彻责任制度。
通过建立数据治理委员会,与各级数据治理角色建立汇报层级关系。对数据质量领域的政策和程序负责,提供方向性的指导。相关参与者共同定义和普及数据质量战略和框架。开发、完成、批准信息政策、数据质量标准和协议,并对业务预期需求的满足度进行评定。
二、活动
1、定义数据质量需求
数据质量的定义必须满足业务政策和其他特定需求的背景。这些特定的政策和需求可能是外部的(比如政府强制要求),也可能是内部的(组织的要求)。可以根据定义好的数据质量维度来度量数据是否符合需求,并生成数据质量指标的报告。
数据质量维度体现了高层次的指标度量要求,可以据此对业务规则进行分类。根据实施的需要,对度量的颗粒度进行细化。数据质量维度包括:
- 准确性:数据准确反映实际业务信息所建模的实体的程度。
- 完整性:一个数据集的特定属性都被赋予了数值,数据的完整性包括数据值的可用性和适用性。
- 一致性:指确保一个数据集的数据值与另一个数据集的数值一致。
- 时效性:信息反映当前实际业务的“新鲜”程序。
- 精确度:数据元素的详细程度。
- 隐私:对数据进行访问控制和使用监控。
- 合理性:一些特定的业务场景下相关数据的一致性。比如每天的交易数量不应该超过过去30天的平均交易数量的150%。
- 参照完整性:一张表的一个字段对同一张表或另一张表的另一个字段引用全部有效。
- 及时性:信息可访问性和可用性的时间预期。
- 唯一性:一个数据集中,满足实体唯一性。
- 有效性:数据实例的存储、交换或展现的格式是否与数据值域一致。
2、剖析、分析和评估数据质量
数据评估的两种方法:
1)自底而上:直接对数据集进行检查和评价,直接暴露潜在的数据异常和问题,包括出现率分析、重复性分析、跨数据集的依赖关系、孤岛数据记录和冗余分析。自底而上的方法没有数据消费者的参与,可能评估出的异常、数据错误与业务背景无关。
2)自顶而下:业务用户参与记录业务流程和关键的数据依赖关系。在理解业务流程如何使用数据、哪些数据元素对业务应用至关重要的前提下进行评审。通过评审被报告、记录和诊断的数据错误类型,数据质量分析师可以评估与数据问题相关的业务影响。
分析步骤包括:
- 确定需要评审的数据集
- 记录数据集的业务使用方式
- 使用数据剖析工具和技术对数据集进行实验分析
- 列出全部潜在异常
- 针对每个异常与领域专家一同评审确认是否是真的数据错误,并评估潜在的业务影响
- 对重要数据异常进行优先级排序,准备定义数据质量指标
在这个过程中,关键在于对数据各方面进行统计分析,包括记录的填充率、填充数值的数量、频繁出现的数值、可能的异常值、字段间关系、跨表的关系等。通过这些信息确定有较大的业务影响和适合进行持续监控的数据问题(数据质量工作持续开展的一项工作)。在此过程中可能会发现一些重要的商务智能信息。比如某个值出现可能说明一个重要的业务事实,就像设备失效正说明某个供应商可能不合格。
3、定义数据质量指标
数据质量指标应合理反映数据质量维度所定义的数据质量特性。包括:
- 可度量性:数据质量指标可度量且能够在离散值域范围内量化。
- 业务相关性:每个数据质量指标,都应满足数据质量可接受阈值与业务预期的相关性。
- 可接受程度:数据质量维度为数据质量的业务需求提供框架,对数据质量维度进行量化度量,设定可接受的阈值,从而判断数据质量是否满足业务预期。
- 数据认责制度/数据管理制度:当数据质量指标证明数据质量不能满足业务预期时,需要通知相关人员。
- 可控性:数据质量指标值的评估结果如果反映了不良数据质量,则应对度量的数据采取改善行动。
- 可跟踪性:可量化的指标帮助企业度量数据质量的提升。数据质量的跟踪则帮助管理人员监控在数据质量服务水平协议范围内的相关活动,并证明活动的有效性。持续的跟踪会加强统计控制流程,并确保数据质量持续可预测。
定义数据质量指标过程:
- 选择一个业务点
- 评估与这个业务点相关的数据元素以及数据创建/更新流程
- 对于每个数据元素,列出与之相关的数据需求
- 对于每个数据需求,定义相关的数据质量维度以及一个或多个业务规则,以便确定数据是否满足需求
- 对每个选中的业务规则,描述度量需求满足度的流程,定义可接受程度的阈值
根据以上过程,提供原始数据质量的评分,并将评分汇总量化为对数量质量满足程度的分析。未达到满足度的需要采取必要的纠正措施。
4、定义数据质量业务规则
数据质量检查工作包括:
- 将不满足业务需求的数据值、记录和记录集与有效的数据值、记录、记录集都记录下来;
- 生成通知事件,及时向相关人员通知质量问题;
- 建立自动或事件驱动的缺陷数据纠正机制,满足业务期望;
可以提供规则模板来协助数据质量管理工作。业务规则包括:值域成员、定义一致性、值域一致性、格式一致性、映射一致性、取值和记录的完整性、一致性规则、精确度验证、唯一性验证、及时性验证,以及其他可能涉及数据汇总、合理性等规则。规则模板有助于建立业务团队和技术团队间的沟通。
5、测试和验证数据质量需求
测试和验证数据质量要求,会使用数据质量评估阶段识别/定义的规则,使用数据剖析工具分析数据并发现潜在的异常。大多数的数据剖析工具支持数据分析师定义规则,用于数据验证、评估频率分布和相应的度量,再将这些规则应用于整个数据集。
需要对数据剖析工具分析的结果进行审阅、验证和测试,这些工作要与业务用户共同完成,以确保业务用户理解这些规则,使得业务规则和业务需求保持一致。
基于数据规则符合度的数据质量测量,可以用来主动验证数据,可以区分哪些记录达到了预期的数据质量要求,哪些不符合。为当前数据质量水平制定基线,从而可以与数据质量的动态审计结果相比较。
6、确定与评估数据质量服务水平
可以通过数据质量的服务水平协议SLA来确定组织对数据质量检测和监控的期望值。数据质量检查和监控机制可以提高识别和纠正数据质量问题的可能性,避免对业务的冲击。数据质量的服务水平协议定义了日常质量控制的内容与日常数据质量流程相关的角色和职责。提供数据符合数据质量业务规则情况的报告,并监控人员响应质量事故的绩效。当问题不能在规定时间内响应或处理时,数据质量SLA规定了启动上报机制时,通知的时限和上报管理层人员姓名。
组织通过确定数据质量业务规则,测量符合度的方法,与业务用户共同定义可接受阀值和服务水平协议。
7、持续测量和监控数据质量
对于数据质量管理的操作流程来说,通常有两条控制和测量的方法:流动式和批量式。一般测量会针对三种颗粒度:数据值、数据实例(数据记录)、数据集。在数据质量测量中,通常再数据创建时采用流动式测量,对永久存储的数据集的数据记录进行批量测量。
将数据质量控制和测量流程嵌入到信息处理流程中可以实现持续性的监控。如下图所示,根据定义数据质量业务规则,将控制和测量结果纳入操作程序和报告中,确保对数据质量的持续监控。

8、管理数据质量问题
数据质量事件跟踪/报告系统提供了数据质量服务水平协议实施得有效支撑,它负责记录数据质量事件的评估、初步诊断和后续行动等信息。提供绩效报告数据,支持查看当前和历史数据质量问题及相关信息。包括:
- 将数据质量问题和活动标准化
- 指定数据问题的处理过程
- 管理问题上报程序
- 管理数据质量解决流程
实施数据质量问题跟踪/报告系统的好处:
- 信息和知识共享,提升心性能、减少重复工作;
- 对所有问题的分析,可以帮助识别重复模式、发生频率和潜在问题根源
- 利用系统,帮助相关人员及早在信息流中识别数据问题,支持日常工作
- 系统的原始数据可作为服务水平协议和指标报告的生成依据
9、清洗和校正数据质量缺陷
这部分有两个活动:确定和消除错误发生的根本原因;分离出不正确的数据项,采取适当的措施使其符合预期;因此,清洗和校正数据质量缺陷在有些情况下可以直接简单的废除错误数据,有一些情况下则需要纠正错误。纠正错误有三种方式:自动校正、人工指导校正、人工校正。
10、设计并实施数据质量管理操作程序
这项工作主要是为了将数据质量应用于具体的应用和数据服务中,其结果提交给数据质量团队。通过引入数据质量工具和技术,对数据进行监控和报告,进行客户化的数据质量检测应用,补充数据生命周期的内容。数据质量团队设计和执行这些活动的详细程序。包括:
- 检查和监控:通过自动化处理或人工处理,对数据进行扫描或抽样检测;
- 诊断和评估补救办法:评审数据质量事件反映的问题、跟踪错误数据的血缘关系、诊断问题的类型及其起源、确定问题的潜在根源;
- 解决问题:提供多种问题解决方案;
- 报告:为保证数据质量管理过程的透明度,对运行情况进行定期报告。数据质量运营团队负责开发和发布这些报告;
11、监控数据质量管理操作程序和绩效
建立数据质量治理协议监控的责任制,指定人员、跟踪流程,以文件规定最终的问题负责人。通过数据质量服务水平协议明确规定的绩效标准,合理评估收集到的绩效数据。
绩效数据可以评估目前工作流程的效果、系统和资源使用情况,也是驱动数据质量控制流程提供持续改进的重要管理数据点。
三、数据质量工具
数据质量工具可以按活动分成4类:分析、清洗、改善和监控。所用的主要工具包括:
1、数据剖析
数据剖析主要用来对数据集进行统计分析和数据质量评估,识别数据集内和集之间的值所存在的关系。通过定量检测和分析审阅来对数据值进行客观的审核。将疑似不良的数据实例记入文件,让相关人员评审是否存在问题。
数据剖析工具可以提供不同值的分布情况,洞察各列的类型和使用情况。得出每列值的关键特征。跨列分析可看出内部值的关联性,识别实体间外键关系的重合值,识别和评估数据的异常。数据剖析可针对定义的业务规则进行主动性测试。测试结果可用来区分哪些记录符合定义的数据质量要求,哪些不符合,进而促进数据质量的持续审计和数据质量的提升。
2、解析和标准化
数据解析工具可以帮助数据分析师定义符合规则的集合,用来区分有效和无效的数据值。通过解析有效模式,提取并重新排列独立组件,形成标准形式。识别出无效模式时,会尝试将无效值转成一个符合要求的值。
在解析过程中,很多数据质量问题通常是一类问题,但由于数据值表示上略有差异会产生混淆和歧义,这时候需要将这些数据转换为标准格式。
3、数据转换
识别到数据的错误,触发数据规则,将错误的数据转换成目标架构可接受的格式。可使用数据整合工具直接运用这些规则,或依靠其他技术解决问题。将源系统的数据映射到对应的目标模式来实现标准化。
数据转换是建立在标准化技术上,基于规则的转换将数据值从原来的格式和模式映射为目标模式。模式解析组件再进行重排,校正或基于业务规则进行相应更改。
4、身份识别和匹配
在身份识别过程中使用记录关联与匹配方法,运用冗余分析与消除所使用的的相似度评估方法、合并/清除、存储、数据改善、清洗等,实施客户数据整合或主数据管理等战略性数据管理举措。通常数据质量问题涉及到:
- 多个数据实例实际上指的是一个实体;
- 分析师或应用程序认定不存在的记录,其实是存在的;
这些情况都可以通过相似性分析来处理。通过相似性识别,可以确定一些数据是冗余的,可能需要清洗或消除,有助于主数据汇总。
两种匹配的基本方法是确定式和或然式:
- 确定匹配(如解析和标准化),依靠的是确定的规则。其结果通常是可预测的,实施效果与匹配规则的多样性、数量和顺序有关;
- 或然式基于统计技术,依赖于训练数据的采样能力,需要观察全部记录的子集的预期结果,进行匹配器调优,实现基于统计结果的自我调整。其结果可能是不确定的,但随着分析数据的增多,其匹配精准度会逐步提升;
5、数据改善
提升数据质量可以增加组织的数据价值,数据改善是提升价值的一种方法。通过积累基本实体集的各种附加信息,并合并所有相关信息来提供集中的数据视图来实现。
数据解析为数据实例划分出特征数据值,这些特征值有助于决定哪些潜在数据源可以提供附加收益。数据清洗和标准化过程中获得附加值信息可用于为以后的数据匹配、记录关联和身份识别等提供附加建议,增加更多数据的细节信息。
6、报告
建立良好的报告制度来检查和监控数据满足数据质量期望:
- 监控数据管理专员的业绩是否符合数据质量服务水平协议
- 报告数据质量事件的工作流程处理
- 数据的任工清洗和校正活动等
为用户提供可视化的展示方式,包括标准报表、记分卡、仪表盘等,同时系统还应提供任何数据质量工具均应具备的即席查询功能。
四、指导原则
数据质量管理职能的12个指导原则:
- 将数据当作组织的核心资产来管理;
- 所有数据项都有标准化的数据定义、数据类型和可接受的值域;
- 运营数据治理来控制和确保数据质量管理的效果;
- 尽可能使用行业和国际数据标准;
- 下游数据消费者确定数据质量需求;
- 定义适当的业务规则来确保数据符合数据质量要求;
- 根据业务规则来验证数据实例和数据集;
- 业务流程拥有者需要认可并遵守数据质量服务水平协议;
- 如果有可能,从源头进行数据校正;
- 如果无法从源头纠正数据,应尽可能将数据校正需求发给数据源头的拥有者;
- 将数据质量测量报告提交给适当的数据管理专员、业务流程拥有者以及服务水平协议的管理者;
- 确定所有数据项的“可信数据源”;
五、组织和文化的影响
商务智能的价值链表明,数据资源的质量直接影响组织的业务目标。因此,数据质量的关键是到数据资源,而非信息处理和商务智能流程。
数据质量势必要通过一些管理和维护来实现,并非免费的。从初始阶段就要建立数据资源的质量控制措施,可以避免后期的大量成本投入。数据质量需要在数据生命周期内进行持续维护。
随着数据量的增加、数据加工技术的强大、覆盖数据范围的日趋广泛,在原本孤立系统中似乎质量很高的数据,一旦进行跨组织范围的分析和处理,其数据质量的问题就显露无疑。每个期望利用数据来提升效率和效益的组织都应该建立数据质量意识。建立一个单一的企业级数据架构,并以此为基础建立和维护所有的数据。
声明:本文来自知乎,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于知乎,作者老鸣;编辑/翻译:数字化转型网默然。



