数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据治理是一个什么话题呢?
就是上面那些玩意之前开发的时候有历史遗留问题,要把它“治理”成规范的
数据治理总体上分成合规治理和资源治理
合规治理主要是规范上的问题,比如:模型设计规范、元数据定义规范、数据质量方面的保障规范等
资源治理分为存储和计算
比如说存在大量重复数据、无用数据的存储导致我 HDFS 存储不足,那我就需要进行存储资源治理
存在某些任务会消耗大量资源,导致链路中其他任务跑不起来,那这个时候我就需要进行计算资源治理
由于数据仓库在建设过程当中,可能由于急于交付需求就没有考虑过多合规方面的问题,导致遗留下很多隐性的问题
同时每个时期所关注的问题是不一样的,所以需要按照不同的阶段进行精确的治理
(1) 规范化
模型开发上线流程的“质量关卡”:
设计模型 -> 组内模型评审(大家一起看看图纸有没有问题) -> – 代码编写 -> 提交代码(测试环境) -> 代码审核数据校验( 写完代码,在测试环境跑跑,产出质量报告看看有没有问题) -> 配置 DQC -> 数据初始化(线上环境)
强制DQC检测:
每次代码上线,都应该强制要求做DQC检测,能指望开发人员自觉,万一忘了,数据质量就可能出问题
最好是平台层面就卡住,不通过DQC不让上线
指标变更流程的“质量关卡”:
发现影响,及时沟通: 如果你改了一个字段,或者一个指标的计算逻辑,可能会影响到下游正在用这个数据的报表或者其他表,那你不能自己改完就完事了
多方审核,确认无误再上线,让其他同事帮忙审核代码、审核数据质量,确保没问题了才能发布
如果你的修改影响到了别人的表,一定要在业务群里找到那个表的负责人,通知他你的改动,他确认他的表没问题,或者配合他修改
“扯皮”预案:
如果联系不上负责人,或者负责人不同意你的修改方案,怎么办?
联系不上,就找他 leader,游负责人要确认当天不受影响,如果他不回复,出来问题对方承担责任
如果他不同意你的修改方案,那双方得坐下来好好商量,定好怎么改、什么时候改,重新制定方案
(2) 强监控
DQC的作用
就是在每个数据任务跑完之后,立刻对产出的数据进行检查
如果发现问题,就能及时“卡住”,不让这些“坏数据”流到下游去祸害别人
它就像是生产线末端的“质检员”,每个产品下线都得过他这一关
DQC都能监控些啥呢?
- • 基于数值的监控:
数据量突变: 比如一张表昨天产了100万行数据,今天突然变成了200万行(翻倍),或者只剩1万行了,这可能就有问题了
我们可以设置一个阈值,比如数据量波动超过30%就报警
同环比异常: 比如今天的订单数,跟昨天比(同比)、跟上周同一天比(环比)差距特别大,也可能不正常
空值的监控: 某个重要的字段(比如用户ID、订单金额)是不是有很多空值?或者整张表都是空的?
唯一性的检验: 比如订单号应该是唯一的,如果出现重复的订单号,那肯定有问题。
- • 阈值怎么定?
初期: 刚开始,可以凭经验,或者跟业务方沟通,大概定一个
后期: 等数据跑起来了,系统可以分析过去7天或30天的数据波动情况,给我们一个更合理的阈值建议
动态评估: 甚至可以用算法来长期监测数据的波动,自动调整阈值,让监控更智能
DQC的规则还分“轻重缓急”
- • 强规则:
这是“红线”,一旦触发,比如核心表的关键字段全为空了,那任务就直接停止,不能让它继续往下跑了
同时,立马通过电话、钉钉/飞书消息、邮件等各种方式通知任务负责人和他的 leader,让他们火速来处理
书里举了个例子,一般情况下,数据量波动很少会超过100%(比如翻倍),如果真超过了,那很可能就是个严重问题,适合用强规则
- • 弱规则:
这更像是个“提醒”,比如某个非核心字段的空值率稍微高了一点
触发了弱规则,任务还是会继续跑,但是会通过消息、邮件通知相关人员关注一下
在数据治理的早期,一定要把那些还没来得及配DQC监控的老模型,都给补上监控配置
一旦这些老模型出了问题(比如产了个空表,或者数据量突然翻了好几倍),就会污染整个数据链路
声明:本文来自建鑫Data,版权归建鑫jx所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于建鑫Data;编辑/翻译:数字化转型网萍水。

