数智化转型网szhzxw.cn 数字化转型网专题栏目 数据相关专题|数据质量合规治理的过程

数据相关专题|数据质量合规治理的过程

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据治理是一个什么话题呢?

就是上面那些玩意之前开发的时候有历史遗留问题,要把它“治理”成规范的

数据治理总体上分成合规治理资源治理

合规治理主要是规范上的问题,比如:模型设计规范、元数据定义规范、数据质量方面的保障规范等

资源治理分为存储和计算

比如说存在大量重复数据、无用数据的存储导致我 HDFS 存储不足,那我就需要进行存储资源治理

存在某些任务会消耗大量资源,导致链路中其他任务跑不起来,那这个时候我就需要进行计算资源治理

由于数据仓库在建设过程当中,可能由于急于交付需求就没有考虑过多合规方面的问题,导致遗留下很多隐性的问题

同时每个时期所关注的问题是不一样的,所以需要按照不同的阶段进行精确的治理

(1) 规范化

模型开发上线流程的“质量关卡”

设计模型 -> 组内模型评审(大家一起看看图纸有没有问题) -> – 代码编写 -> 提交代码(测试环境) -> 代码审核数据校验( 写完代码,在测试环境跑跑,产出质量报告看看有没有问题) -> 配置 DQC -> 数据初始化(线上环境)

强制DQC检测

每次代码上线,都应该强制要求做DQC检测,能指望开发人员自觉,万一忘了,数据质量就可能出问题

最好是平台层面就卡住,不通过DQC不让上线

指标变更流程的“质量关卡”:

发现影响,及时沟通: 如果你改了一个字段,或者一个指标的计算逻辑,可能会影响到下游正在用这个数据的报表或者其他表,那你不能自己改完就完事了

多方审核,确认无误再上线,让其他同事帮忙审核代码、审核数据质量,确保没问题了才能发布

如果你的修改影响到了别人的表,一定要在业务群里找到那个表的负责人,通知他你的改动,他确认他的表没问题,或者配合他修改

“扯皮”预案:

如果联系不上负责人,或者负责人不同意你的修改方案,怎么办?

联系不上,就找他 leader,游负责人要确认当天不受影响,如果他不回复,出来问题对方承担责任

如果他不同意你的修改方案,那双方得坐下来好好商量,定好怎么改、什么时候改,重新制定方案

(2) 强监控

DQC的作用

就是在每个数据任务跑完之后,立刻对产出的数据进行检查

如果发现问题,就能及时“卡住”,不让这些“坏数据”流到下游去祸害别人

它就像是生产线末端的“质检员”,每个产品下线都得过他这一关

DQC都能监控些啥呢?
  • • 基于数值的监控

数据量突变: 比如一张表昨天产了100万行数据,今天突然变成了200万行(翻倍),或者只剩1万行了,这可能就有问题了

我们可以设置一个阈值,比如数据量波动超过30%就报警

同环比异常: 比如今天的订单数,跟昨天比(同比)、跟上周同一天比(环比)差距特别大,也可能不正常

空值的监控: 某个重要的字段(比如用户ID、订单金额)是不是有很多空值?或者整张表都是空的?

唯一性的检验: 比如订单号应该是唯一的,如果出现重复的订单号,那肯定有问题。

  • • 阈值怎么定?

初期: 刚开始,可以凭经验,或者跟业务方沟通,大概定一个

后期: 等数据跑起来了,系统可以分析过去7天或30天的数据波动情况,给我们一个更合理的阈值建议

动态评估: 甚至可以用算法来长期监测数据的波动,自动调整阈值,让监控更智能

DQC的规则还分“轻重缓急”
  • • 强规则:

这是“红线”,一旦触发,比如核心表的关键字段全为空了,那任务就直接停止,不能让它继续往下跑了

同时,立马通过电话、钉钉/飞书消息、邮件等各种方式通知任务负责人和他的 leader,让他们火速来处理

书里举了个例子,一般情况下,数据量波动很少会超过100%(比如翻倍),如果真超过了,那很可能就是个严重问题,适合用强规则

  • • 弱规则:

这更像是个“提醒”,比如某个非核心字段的空值率稍微高了一点

触发了弱规则,任务还是会继续跑,但是会通过消息、邮件通知相关人员关注一下

在数据治理的早期,一定要把那些还没来得及配DQC监控的老模型,都给补上监控配置

一旦这些老模型出了问题(比如产了个空表,或者数据量突然翻了好几倍),就会污染整个数据链路

声明:本文来自建鑫Data,版权归建鑫jx所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于建鑫Data;编辑/翻译:数字化转型网萍水。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/91907.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部