数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、背景
数据质量人人有责,这不仅仅只是一句口号,更是数据工作者的生命线。数据质量的好坏直接决定着数据价值高低。数据质量是企业数字化转型行进中的关键节点之一,低质量的数据对企业来说,会严重阻碍企业的数据应用,可能会隐藏运营中的问题,并使合规性成为挑战,甚至造成大的损失。高质量的数据管理,有助于加速推进企业数字化转型。
二、数据质量概念
数据质量是指数据符合预期目的。当数据准确地展示现实世界的真实情况时,会被认为是高质量的。而数据质量管理是一组旨在维护高质量信息的实践。数据质量管理从数据采集和高级数据流程的实施一直到数据的有效分发。它还需要对信息进行管理监督。有效的数据质量管理被认为对于任何一致的数据分析都是必不可少的,因为数据的质量对于从信息中获得可操作且更重要的准确见解至关重要。
三、数据质量的重要性
如今,公司的大部分运营和战略决策都严重依赖数据,因此质量的重要性更高。事实上,低质量数据是先进数据和技术计划失败的主要原因。更一般地说,低质量的数据会影响生产力、底线和整体投资回报率。
从客户关系管理到供应链管理,再到企业资源规划,有效的数据质量管理的好处可以对组织的绩效产生连锁反应。有了可用的质量数据,组织可以形成数据仓库,以检查趋势和制定面向未来的战略。在整个行业范围内,数据质量的积极投资回报率是众所周知的。根据埃森哲的大数据调查,92%使用大数据进行管理的高管对结果感到满意,89%的高管认为数据“非常”或“极其”重要,因为它将“像互联网一样彻底改变运营模式”。大企业的领导者清楚地了解优质数据的重要性。
高质量的数据有助于做出更好的决策:当今的市场必然是以消费者为中心。有了高质量的数据,企业将能够做出更好的决策
更好的团队协作:当一个组织的许多部门能够持续访问相同的高质量数据时,结果是更好、更有效的沟通。这使所有团队成员更容易在优先级、对外信息以及品牌方面保持一致。这将共同确保更好的结果。
更好地了解客户:有了高质量的数据,公司就能够更好地评估客户的兴趣和要求。这有助于组织通过根据客户需求创造更好的产品来实现增长。然后,可以根据消费者的需求和来自数据的直接反馈来推动创建的营销活动,而不仅仅是基于有根据的猜测。
改进业务流程:良好的数据还意味着团队可以确定运营工作流程中的故障点。对于供应链行业来说尤其如此,因为供应链依靠实时数据来确定适当的库存和发货后的位置
四、数据质量产生原因
数据质量产生的原因有很多,具体概括也可分为以下4类:
需求:需求设计、开发、测试、上线过程中引发的数据质量问题,主要是由于需求过程中管理机制和流程不健全导致。
数据来源:来源数据本身存在问题,下游使用的过程中才暴露出上游数据质量问题。
统计口径:不不同业务或部⻔门对相同名称的指标定义和⼝口径不不同,造成最终数据的质量量⽋欠缺。这也是为什么大数据体系中指标系统占据着非常重要的地位。
数据平台问题:数据平台在数据开发、日常运行、作业调度等过程中出现问题,造成数据质量欠缺。
五、数据质量影响因素
数据问题的来源可能产生于从数据源头到数据存储介质的各个环节。在数据采集阶段,数据的真实性、准确性、完整性、时效性都会影响数据质量。除此之外,数据的加工、存储过程都有可能涉及对原始数据的修改,从而引发数据的质量问题。所以,技术、流程、管理等多方面的因素都有可能会影响到数据质量。
在企业中,随着企业业务的增长,数据也是一个增量积累的过程。随着数据类型、数据来源的不断丰富以及数据数量的快速增长,企业在数据管理工作和数据流程中面临越来越多的数据质量问题。而且数据质量的管理并没有被企业重视起来,其根本原因还是ROI(投资回报率)并没有那么明显。
数据质量管理相对来说成本比较高。因为它涉及到企业数据标准的制定、规范的落地、生命周期的管理等多个环节。从收益上来说,数据质量的效益和结果并不是十分明显,大部分企业不会把数据质量作为KPI(关键绩效指标)。在企业的不同系统中,业务领域的关键指标不一致,数据无法共享导致出现数据孤岛,大量数据无法关联,并且有明显的数据冗余等问题,还有数据的维护需要投入大量的人员、时间、软硬件成本。所以数据的质量管理往往被会边缘化甚至趋向于无。
数据质量贯穿数据流转和数据处理各环节的生命周期图。如下所示:
数据产生–>数据接入–>数据存储–>数据分析–>数据处理–>数据输出–>数据应用(可视化、API接口等)
六、数据质量评估维度
一致性场景描述:用于对比不同列、不同表之间的数据或业务一致性。常用于比较不同数据表的主键是否相同、单价乘数量是否等于总价等。场景举例:王先生在员工系统的公司职务是总监,在销售系统是主管。
有效性场景描述:用于对数据内容填写是否符合规范进行校验。常用于对数据的类型、范围或长度进行校验。场景举例:员工年龄-1岁,无效。
及时性场景描述:用于对数据时间更新的频率和间隔进行验证。常用于判断业务日期或操作日期是否为最新,时间间隔是否合理。场景举例:王先生午8点入职,10点才能在系统看到相关信息。
准确性场景描述:用于校验数据的真实程度,需要和实际的数据进行对比。常用于用户手机号验证、邮箱验证、用户标签验证。场景举例:联系方式是否是真实联系方式。
唯一性场景描述:用于对字段是否唯一进行校验。唯一性用于对字段是否唯一进行校验。场景举例:员工身份证号码应该只出现一次。
完整性场景描述:用于判断表或字段是否存在所有的必要数据,以此检查数据是否完整。常用于判断字段填充率、必填或非空(填充率100%)等。场景举例:企业有1000员工,只有600人有联系方式。
指标定义:
| 指标 | 指标定义 |
|---|---|
| 完整性 =非 nul + 非空指标的总百分比 | 度量数据可用性、数据集中的非空字段和已更改的默认值。 例如,如果记录包含出生数据 01/01/1900,则该字段很可能从未填充过。 |
| 唯一性=非重复值的百分比 | 对比表中的行数,度量给定列中的非重复值, 例如,在包含5行的表中有四种不同的颜色值(红色、蓝色黄色和绿色),则该字段的唯一性为 80%(或 4/5)。 |
| 一致性=具有模式的数据的百分比 | 度量给定列中的数据与其预期数据类型或格式的符合性。 例如,包含格式化电子邮件地址的电子邮件字段或具有数值的名称字段。 |
| 有效性=引用匹配的百分比 | 度量与对应域引用集的成功数据匹配。例如,假设 某个国家/地区字段(符合事务记录系统中) 分类值,则”A”的 US“值无效。 |
| 准确性=未更改值的百分比 | 度量跨多个系统成功复制预期值的情况。例如,如果发票逐项列出与原始订单不同的 SKU 和扩展价格,则发票行项将不准确。 |
| 链接=集成良好的数据的百分比 | 度量与另一个系统中的配套参考详细信息的成功关联。例如,如果发票逐项列出不正确的 SKU 或产品描述,则发票行项不可链接。 |
七、数据质量规则模板及稽核计算方式
规则模版:
| 规则类型名称 | 规则类型编码 | 规则模板名称 | 规则模板编码 |
|---|---|---|---|
| 完整性 | COMPLETENESS | 字段空值校验 | FIELD_NULL_VALUE_VALIDATE |
| 完整性 | COMPLETENESS | 字段空字符串校验 | FIELD_NULL_VALUE_VALIDATE |
| 唯一性 | UNIQUENESS | 字段唯一性校验 | FIELD_UNIQUE_VALIDATE |
| 唯一性 | UNIQUENESS | 字段分组个数校验 | FIELD_GROUP_COUNT_VALIDATE |
| 唯一性 | UNIQUENESS | 字段重复值个数校验 | FIELD_DUPLICATE_VALUE_COUNT_VALIDATE |
| 及时性 | TIMELINESS | 时间函数比较 | FUNCTION_TIME_COMPARE |
| 及时性 | TIMELINESS | 单表时间字段比较 | SINGLE_TABLE_TIME_COMPARE |
| 及时性 | TIMELINESS | 两表时间字段比较 | DOUBLE_TABLE_TIME_COMPARE |
| 有效性 | EFFECTIVE | 字段格式校验 | FIELD_FORMAT_VALIDATE |
| 有效性 | EFFECTIVE | 字段长度校验 | FIELD_LENGTH_VALIDATE |
| 有效性 | EFFECTIVE | 字段值域校验 | FIELD_VALUE_RANGE_VALIDATE |
| 有效性 | EFFECTIVE | 码表参照对比 | CODE_TABLE_COMPARE |
| 有效性 | EFFECTIVE | 数据标准码表参照对比 | / |
| 一致性 | CONSISTENT | 单表字段值一致性比较 | SINGLE_TABLE_FIELD_VALUE_COMPARE |
| 一致性 | CONSISTENT | 单表字段统计值一致性比较 | SINGLE_TABLE_FIELD_STATISTICAL_COMPARE |
| 一致性 | CONSISTENT | 单字段业务逻辑一致性比较 | SINGLE_TABLE_FIELD_EXP_COMPARE |
| 一致性 | CONSISTENT | 两表字段值一致性比较 | DOUBLE_TABLE_FIELD_VALUE_COMPARE |
| 一致性 | CONSISTENT | 两表字段统计值一致性比较 | DOUBLE_TABLE_FIELD_STATISTICAL_COMPARE |
| 一致性 | CONSISTENT | 两表字段业务逻辑一致性比较 | DOUBLE_TABLE_FIELD_EXP_COMPARE |
| 一致性 | CONSISTENT | 跨源两表字段统计值一致性比较 | / |
| 稳定性 | STABILITY | 表稳定性校验 | TABLE_STABILITY_VALIDATE |
| 稳定性 | STABILITY | 表波动性校验 | TABLE_FLUCTUATION_VALIDATE |
| 稳定性 | STABILITY | 字段稳定性校验 | FIELD_STABILITY_VALIDATE |
| 稳定性 | STABILITY | 字段波动性校验 | FIELD_FLUCTUATION_VALIDATE |
稽核计算方式:
1.字段唯一性计算
字段A的唯一性百分比 = count(distinct 字段A)/count(字段A)
2.非空完整性计算
字段A的完整性百分比 = sum(case when 字段A is not null then 1 else 0 end )/count(字段A)
3.字典一致性计算
枚举类型的数据都会维护在一张标准表中 然后和目标表进行比对字段A的 有效性百分比= sum(字段A in (维护的标准表) then 1 else 0 end )/count(字段A)
4.长度准确性计算
字段A的长度有效性百分比 = sum(case when length(字段A)<=设置数值 then 1 else 0 end )/count(字段A)
八、提升数据质量
1.事前定义数据的监控规则
- 依据规则类型形成数据质量规则模板项
- 提炼规则:梳理对应指标、确定对象(两表、单表、字段)、通过影响程度确定资产等级
- 质量规则制定
2.事中监控和控制数据生产过程
- 质量监控和工作流调度引擎无缝对接
- 支持定时调度
- 强弱规则控制ETL流程
- 对脏数据进行清洗
3.事后分析和问题跟踪
- 电话/邮件/短信/工单/钉钉告警并及时跟踪处理
- 稽核报告查询
- 数据质量报告的概览、历史趋势、异常查询、数据质量表覆盖率
- 异常评估、严重程度、影响范围、问题分类
- 支持异常数据归档并且可下载异常数据(下载中心)
九、数据质量的问题来源
来源#1:并购
当两家公司以某种方式联合起来时,他们的数据就会融入这种新的工作关系中。然而,就像两个婚前有孩子的人建立新的关系一样,事情有时会变得一团糟。
例如,两家公司很有可能使用完全不同的数据系统。也许你们中的一个人有一个遗留数据库,而另一个人已经更新了东西。或者使用不同的方法收集数据。甚至有可能关系中的一个合作伙伴有很多不正确的数据。
来源#2:从遗留系统过渡
对于非技术用户来说,可能很难理解从一种操作系统切换到另一种操作系统所固有的困难。直觉上,外行会期望事情已经“设置好”,以便最终用户可以轻松无痛地进行转换。这绝对不符合现实
来源#3:用户错误
这是一个可能永远不会消失的问题,因为人类将始终参与数据输入,并且人类会犯错误。人们经常打错东西,这必须加以考虑。
来源#4:业务常见来源
- 数据延迟,导致业务无法在正常时效内获得数据结果。
- 数据错误,导致数据结果完全不可信,以致无法使用。
- 数据恢复慢,问题发生后,排查分析耗时长,数据恢复时间慢。
发现滞后,数据开发晚于业务人员发现数据异常,导致影响已传导到数据应用端。
十、六种自动化数据质量检测方法
9.1 跟踪数据集中的行数
行计数检查简单而有效,可以确保数据集不为空——这是任何下游任务的重要先决条件。行计数检查还可以提醒您数据量出现异常峰值。当转换后的数据集突然包含比预期多得多的行时,可能会指出分析代码中的错误,例如外部联接被错误地用于联接两个表,而不是内部联接。
9.2 跟踪你的数据集模式演变
数据架构描述数据集中的列。尽管数据集模式可能会在业务的早期阶段发生变化——添加或删除列,或更改列顺序——但它们应该会在某个时候稳定下来。添加一个数据集模式演变检查,自动监控对您的数据集模式的更改,并在发生任何事情时通知您。运行两次扫描以开始查看结果:第一次是捕获基线数据集模式的测量,另一次是进行比较。
9.3 检查数据的及时性
当新的数据点以连续的方式产生和传输时,关注数据的及时性尤为重要。为此,您可以使用数据质量检测工具对日期或时间戳列执行新鲜度检查。例如,如果数据集中最年轻的数据超过一天,您可以使用它来配置警报。当触发时,它会提醒您在更大的数据生态系统中遇到障碍。也许是第三方供应商意外发送了一个包含旧数据的文件?或者管道没有正确运行?通过新鲜度检查,你就会知道。
9.4 检查值是否唯一
重复的值会极大地影响数据集的使用。应用重复检查以确保关键列仅包含唯一值。例如,您可以将其应用于order_id和account_number,以确保订单不会错误重复。
9.5 有效值检查
有人不小心输入了错误的日期吗?订单号列是否应该包含一定数量的字符?你不想知道这两件事是否发生过吗?使用有效性检查可以在数据集中的数据无效或意外时发出警告。
9.6 找到数据缺失的部分
如果月度付款列缺少值,则预测收入的报告将不会产生非常准确的预测。使用缺失的检查来查找NULL,并确保您的团队正在处理的数据是完整的。
十一、参考文献
[1]https://mp.weixin.qq.com/s/ICgJmzFeBfm09pf88L75OQ
[2]https://mp.weixin.qq.com/s/68yQLtSQsdJwBPpavFLfkw
[3]https://mp.weixin.qq.com/s/YUQg82LjoCs6-qy8fsOong
[4]https://mp.weixin.qq.com/s/HQnbAB7NpJDGLBSYGciOCw
[5]https://mp.weixin.qq.com/s/KmVHnxq7Nn-QZG04MKmKJA
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网默然。



