数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据质量工具可以按活动分成4类:分析、清洗、改善和监控。所用的主要工具包括:
1、数据剖析
数据剖析主要用来对数据集进行统计分析和数据质量评估,识别数据集内和集之间的值所存在的关系。通过定量检测和分析审阅来对数据值进行客观的审核。将疑似不良的数据实例记入文件,让相关人员评审是否存在问题。
数据剖析工具可以提供不同值的分布情况,洞察各列的类型和使用情况。得出每列值的关键特征。跨列分析可看出内部值的关联性,识别实体间外键关系的重合值,识别和评估数据的异常。数据剖析可针对定义的业务规则进行主动性测试。测试结果可用来区分哪些记录符合定义的数据质量要求,哪些不符合,进而促进数据质量的持续审计和数据质量的提升。数字化转型网www.szhzxw.cn
2、解析和标准化
数据解析工具可以帮助数据分析师定义符合规则的集合,用来区分有效和无效的数据值。通过解析有效模式,提取并重新排列独立组件,形成标准形式。识别出无效模式时,会尝试将无效值转成一个符合要求的值。
在解析过程中,很多数据质量问题通常是一类问题,但由于数据值表示上略有差异会产生混淆和歧义,这时候需要将这些数据转换为标准格式。
3、数据转换
识别到数据的错误,触发数据规则,将错误的数据转换成目标架构可接受的格式。可使用数据整合工具直接运用这些规则,或依靠其他技术解决问题。将源系统的数据映射到对应的目标模式来实现标准化。
数据转换是建立在标准化技术上,基于规则的转换将数据值从原来的格式和模式映射为目标模式。模式解析组件再进行重排,校正或基于业务规则进行相应更改。数字化转型网www.szhzxw.cn
4、身份识别和匹配
在身份识别过程中使用记录关联与匹配方法,运用冗余分析与消除所使用的的相似度评估方法、合并/清除、存储、数据改善、清洗等,实施客户数据整合或主数据管理等战略性数据管理举措。通常数据质量问题涉及到:
多个数据实例实际上指的是一个实体;
分析师或应用程序认定不存在的记录,其实是存在的;
这些情况都可以通过相似性分析来处理。通过相似性识别,可以确定一些数据是冗余的,可能需要清洗或消除,有助于主数据汇总。数字化转型网www.szhzxw.cn
两种匹配的基本方法是确定式和或然式:
确定匹配(如解析和标准化),依靠的是确定的规则。其结果通常是可预测的,实施效果与匹配规则的多样性、数量和顺序有关;
或然式基于统计技术,依赖于训练数据的采样能力,需要观察全部记录的子集的预期结果,进行匹配器调优,实现基于统计结果的自我调整。其结果可能是不确定的,但随着分析数据的增多,其匹配精准度会逐步提升;
5、数据改善
提升数据质量可以增加组织的数据价值,数据改善是提升价值的一种方法。通过积累基本实体集的各种附加信息,并合并所有相关信息来提供集中的数据视图来实现。数字化转型网www.szhzxw.cn
数据解析为数据实例划分出特征数据值,这些特征值有助于决定哪些潜在数据源可以提供附加收益。数据清洗和标准化过程中获得附加值信息可用于为以后的数据匹配、记录关联和身份识别等提供附加建议,增加更多数据的细节信息。
6、报告
建立良好的报告制度来检查和监控数据满足数据质量期望:
监控数据管理专员的业绩是否符合数据质量服务水平协议
报告数据质量事件的工作流程处理
数据的任工清洗和校正活动等数字化转型网www.szhzxw.cn
为用户提供可视化的展示方式,包括标准报表、记分卡、仪表盘等,同时系统还应提供任何数据质量工具均应具备的即席查询功能。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于DATABOK数博库;编辑/翻译:数字化转型网Jack。








