数智化转型网szhzxw.cn 数字化服务商库 数据中台中的主动数据治理场景三:数据生产质量治理

数据中台中的主动数据治理场景三:数据生产质量治理

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

“AI时代,所有产品都值得用大模型重做一遍”。实现这一目标的第一步就是在每个场景中,我们都要思考AI大模型如何嵌入业务流程。在本篇末尾针对AI大模型如何嵌入数据生产质量治理这个场景先抛个“砖”。

主动数据治理的定义:主动数据治理就是全链路数据治理,包含数据建模、数据集成、数据开发、数据运维、数据资产、数据治理、数据质量、数据安全、数据分析、数据服务等数据处理全链路流程,以一站式的大数据开发治理平台能力,满足数据治理中关于规范、稳定、质量、管理、安全、分析、服务等各个方面的诉求。在数据治理的“起步、应用、规模、成熟”不同阶段阶段,解决好数据生产稳定、数据应用提效、数据安全管控和成本治理的主要矛盾。

从场景上来看,按照先后顺序又可分为:(1) 数据生产规范性治理;(2) 数据生产稳定性治理;(3) 数据生产质量治理;(4) 数据应用提效治理;(5) 数据安全管控治理;(6) 数据成本治理;(7) 数据治理组织架构及文化建设。

本篇接着聊聊场景三,数据生产质量治理。数据生产质量治理和上篇中介绍的数据生产稳定性治理是相辅相成的,在数据生产稳定性治理的过程中,同步就会关注到数据生产质量治理的相关问题。数据质量的重要性不言而喻。数据质量的好坏,往往对业务侧所要执行的决策和流程有着直接关联,各种场景不但需要能「成功获取数据」,更要能「成功获取正确的数据」,这样才能实现业务侧的成功,也是数据中台追求的「数据赋能业务、数据驱动业务」目标。

如何评估数据质量的好坏?业界有不同的标准,基于阿里巴巴数据中台运营实践,主要从完整性、准确性、一致性和及时性四个方面进行评估。数据质量的问题又可分为两类:一是技术质量问题,即数据中台在数据生产加工过程中出现了完整性、准确性、一致性或及时性相关问题;二是业务质量问题,即业务上或者业务系统里出现了真实问题。以阿里巴巴集团最常见的电商包裹场景举例,对包裹的重量、体积等基础数值属性会重点关注,因为其和包裹的运输价格、运输安排等有直接的关系。当包裹的重量值为空值或0时,就要开展针对这件包括数据质量问题的追查,到底是业务上或者业务系统里出现了真实问题?还是实际数据加工过程中出现了问题?如果业务上没有问题,而是数据出现了问题,则会影响到到后续针对包裹的结费计算、运输网络的规划、供应链优化等,平台与消费者、平台与商家、平台与供应商之间的交互,都会被数据质量问题所影响。

回到本篇的主题,如何理解数据生产质量治理?当生产环境中产生了与现有规则不符的持久化数据,或数据延迟的问题等,则定义为「数据质量问题」。其中引发故障的,则定义为「数据质量故障」。而数据生产质量治理的过程,也就是我们为了避免「数据质量问题」所要建设的体系。这套体系就叫数据生产质量治理全流程体系,重点关注如下「业务高保障响应」和「过程高效协作」两大方面。

(1)业务高保障响应,业务承诺约束、数据高准确性和异构数据一致性在阿里巴巴数据中台里,数据大量已服务的形态提供给业务应用,例如淘宝的「千人千面」,这就意味着不仅是数据生产本身的问题,更是直接影响着业务侧的质量承诺。更多的业务根据数据进行决策,对数据准确性的要求不再是满足一定的数据分布即可,而是需要更多的业务知识对数据准确性进行更准确地评估。不分业务对数据产出的时效性有严格的要求,单一架构的数据库/数据仓库可能不能完全满足业务的产出速度需要,需要异构数据库合作进行数据链路建设,数据的一致性也是需要解决的问题。

(2)过程高效协同业务研发、数据研发、数据测试、数据运维等多角色流水线作业性,需要在持续监控数据质量的基础上,加强「事中」数据生产治理,「事前」预防校正问题维度,让数据质量在「事前、事中、事后」每个环节上起作用,各个角色都能高效落地。数据生产质量治理全流程体系需要统一的数据质量平台工具支撑具体落地,在阿里巴巴的数据中台运营实践中,DataWorks就是这个统一的数据质量平台工具。数据生产质量治理全流程体系还需要一个保障体系支持其高效运营,「数据质量规则」就是承载该保障体系的重要载体,通过不断沉淀技术质量维度和业务质量维度的治理规则模板,针对不断产生的新的数据表及相似业务,提供快速模板化规则配置、规则推荐,并根据历史的业务运行结果进行动态阈值的智能判定,减少新数据和新用户的配置成本,减少对需要关注指标及数据质量治理的遗漏,全面提升数据可信度和价值密度。

以上从平台工具、规范和组织三方面最终组成数据生产质量治理全流程体系,具体细化为如下四类流程:

(1)质量治理策略:建立线上数据质量问题管理处置机制

(2)质量问题监控:建立全流程数据质量问题的监控和预防体系

(3)质量协同处理:建立上下游协同的工作流程

(4)质量度量评估:建立可复用的数据标准和统一的质量评估体系最后,从「AI大模型」嵌入数据生产质量治理流程的角度,「数据质量规则」应该是大模型可以发力的第一个环节,待实践后再更新本篇。

声明:本文来自梁时的DT学习实践笔记,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于梁时的DT学习实践笔记;编辑/翻译:数字化转型网默然。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/49376.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部