数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、什么是数据质量管理 (DQM)
数据质量管理是一组旨在保持高质量信息的实践。它从数据采集和实施高级数据处理,到数据的有效分发。它还需要对您拥有的信息进行管理监督。有效的 DQM 被认为是任何一致的数据分析的关键,因为数据质量对于从您的信息中获得可操作的、更重要的是准确的见解至关重要。
您可以使用许多策略来提高信息质量。这些流程旨在成为数据开发的“瑞士军刀”,让您的组织准备好应对数字时代数据的挑战,无论它们何时何地出现。在本文中,我们将详细介绍讨论DQM时所涉及的所有内容:为什么它是必不可少的,如何衡量数据质量,良好质量管理的支柱以及一些数据质量控制技术。作为有效 DQM 的一部分,我们还将通过一些数据质量指标示例来评估您在此事上的努力。但首先,让我们定义一下数据质量到底是什么。
二、数据质量的定义是什么
数据质量是指相对于其目的及其服务于该目的的能力,对您拥有的信息进行评估。数据的质量由本文后面将详细介绍的不同因素定义,例如准确性、完整性、一致性或及时性。这种品质对于满足组织在运营、规划和决策方面的需求是必要的。
三、为什么需要数据质量管理
虽然数字时代成功地促进了广泛的创新,但它也促进了所谓的“数据危机”——低质量数据。
如今,公司的大多数运营和战略决策都严重依赖数据,因此质量的重要性甚至更高。事实上,低质量的数据是先进数据和技术计划失败的主要原因,每年给美国企业带来9万美元的收入(不包括世界上其他所有国家的企业)。更一般地说,低质量的数据会影响生产力、底线和整体投资回报率。
我们稍后将讨论低质量数据的一些后果。但是,我们确保不要陷入“质量陷阱”,因为DQM的最终目标不是创建“高质量”数据的主观概念。不,其最终目标是提高那些依赖数据的业务部门的投资回报率(ROI)。与此配对,它还可以:
改进决策过程:从客户关系管理到供应链管理,再到企业资源规划,有效的 DQM 的好处会对组织的绩效产生连锁反应。有了高质量的数据,组织可以形成数据仓库,以检查趋势和制定面向未来的战略。在整个行业范围内,高质量数据的积极投资回报率是众所周知的。根据埃森哲(Accenture)的一项大数据调查,92%使用大数据进行管理的高管对结果感到满意,89%的人认为数据“非常”或“极其”重要,因为它将“像互联网一样彻底改变运营”。
节省时间和金钱:正如您将在这篇富有洞察力的文章中看到的那样,使用劣质数据做出重要业务决策的后果不仅会导致在低效战略上浪费时间,还会导致更高的金钱和资源损失。考虑到这一点,公司投资正确的流程、系统和工具以确保其数据质量符合所需的标准至关重要。因此,企业不仅可以节省大量资金和资源,还可以获得根据准确见解做出明智决策的回报。
竞争优势:如前几点所述,拥有高质量数据的底线是提高组织所有领域的绩效。从客户关系到营销、销售和财务,在当今快节奏的世界中,能够使用自己的数据做出明智的决策是非常宝贵的。清楚地了解您应该遵循哪些步骤才能取得成功,这将导致获得明显的竞争优势,这将使组织与其他组织区分开来。
现在,您已经更清楚地了解了在组织中实施数据质量流程可以获得的好处,让我们更详细地探讨这个概念。
四、数据质量管理的五大支柱
现在您已经了解了高质量数据的重要性,并希望采取行动来巩固您的数据基础,让我们来看看 DQM 背后的技术以及支持它的 5 大支柱。
1 – 角色
技术的效率取决于实施它的个人。我们可能在技术先进的商业社会中运作,但人类监督和流程实施(尚未)过时。因此,有几个角色需要填补,包括:
DQM 项目经理: 项目经理角色应由高级领导者担任,该领导者接受商业智能计划的一般监督责任。他/她还应该监督涉及数据范围、项目预算和计划实施的日常活动的管理。项目经理应引领高质量数据和投资回报率的愿景。
组织变革经理: 变更经理完全按照标题的建议进行操作:组织。他/她通过提供对高级数据技术解决方案的清晰和洞察力来协助组织。由于使用仪表板软件经常突出质量问题,因此变更管理器在数据质量的可视化中起着重要作用。
业务/数据分析师: 业务分析师完全是关于业务的“肉和土豆”。此人从组织角度定义质量需求。然后将这些需求量化为数据模型,以便获取和交付。此人(或一组个人)确保将数据质量背后的理论传达给开发团队。
2 – 数据分析
数据概要分析是 DQM 生命周期中必不可少的过程。它涉及:
- 详细查看数据
- 将数据与其自己的元数据进行比较和对比
- 运行统计模型
- 数据质量报告
启动此过程的目的是深入了解现有数据,并将其与质量目标进行比较。它帮助企业在 DQM 流程中建立起点,并为如何提高其信息质量设定标准。完整准确数据的数据质量分析指标对于此步骤至关重要。准确的数据是寻找不成比例的数字,完整的数据是定义数据主体并确保所有数据点都是完整的。我们将在本文的第三部分中介绍它们。
3 – 定义数据质量
第三个支柱是质量本身。“质量规则”应根据业务目标和要求创建和定义。这些是数据必须遵守的业务/技术规则,才能被视为可行。
业务需求可能会在这一支柱中占据主导地位,因为关键数据元素应该取决于行业。质量规则的开发对于任何 DQM 流程的成功都至关重要,因为这些规则将检测并防止受损数据感染整个集合的运行状况。
就像抗体检测和纠正我们体内的病毒一样,数据质量规则将纠正有价值数据之间的不一致。当与在线 BI 工具结合使用时,这些规则可能是预测趋势和报告分析的关键。
4 – 数据报告
数据质量报告是删除和记录所有有危害数据的过程。这应该设计为遵循数据规则实施的自然过程。一旦识别并捕获了异常,就应汇总它们,以便识别质量模式。
应根据特定特征(例如,按规则、按日期、按来源等)对捕获的数据点进行建模和定义。一旦统计了这些数据,就可以将其连接到在线报告软件,以报告质量状态和数据质量仪表板中存在的异常情况。如果可能,还应实施自动化和“按需”技术解决方案,以便实时显示仪表板见解。
报告和监控是企业数据质量管理 ROI 的关键,因为它们可以随时实时了解数据状态。通过允许企业识别数据异常的位置和住所,数据专家团队可以开始制定补救流程策略。
了解从哪里开始进行主动数据调整将有助于企业在每年因低质量数据而损失的 9 亿美元中恢复其部分。
5 – 数据修复
数据修复是确定以下两步过程:
- 修复数据的最佳方式
- 实施变更的最有效方式
数据修复最重要的方面是执行“根本原因”检查,以确定数据缺陷的来源、位置和方式。实施此检查后,应开始补救计划。
依赖于以前有缺陷的数据的数据处理可能需要重新启动,特别是当它们的功能受到有缺陷的数据的威胁或受到损害时。这些流程可能包括报告、市场活动或财务文档。
这也是应该再次审查数据质量规则的要点。审查过程将有助于确定是否需要调整或更新规则,并有助于开始数据演变过程。一旦数据被认为是高质量的,关键业务流程和功能应该更高效、更准确地运行,具有更高的投资回报率和更低的成本。
五、数据质量管理最佳实践
通过我们上面介绍的 5 个支柱,我们还介绍了一些应遵循的技术和技巧,以确保过程成功。为了帮助您消化所有这些信息,我们汇总了您在评估数据时不应忘记的所有要点。通过遵循这些最佳实践,您应该能够让信息随时可供分析。
- 确保数据治理:数据治理是一组流程、角色、标准和指标,可确保组织以高效、安全的方式使用数据。实施治理系统是确保定义数据质量管理角色和职责的基本步骤。
- 涉及所有部门:正如我们之前提到的,在处理数据质量时需要角色和职责。其中一些角色包括数据质量经理、数据分析师等。也就是说,虽然必须需要专业人员,但也有必要让整个组织参与这个过程。
- 定义数据词汇表:作为治理计划的一部分,一个好的做法是生成数据词汇表。这应包含所有相关术语的集合,这些术语用于以可访问且易于导航的方式定义公司数据。这样,您可以确保对整个组织中使用的数据定义有共同的理解。
- 找出质量问题的根本原因:如果您发现业务中的数据质量很差,则没有必要将其全部扔掉。质量差的数据还可以提供见解,帮助您在未来改进流程。这里一个好的做法是查看当前数据,找到质量问题的根源并修复它。这不仅可以帮助您为使用干净、高质量的数据奠定基础,还可以帮助您确定将来可以避免或预防的常见问题。
- 投资自动化:由于人为错误的可能性很高,手动数据输入被认为是数据质量差的最常见原因之一。在需要许多人进行数据输入的公司中,这种威胁变得更加严重。为了避免这种情况发生,最好投资自动化工具来处理进入过程。这些工具可以根据您的规则和集成进行配置,并可以确保您的数据全面准确。
- 定义 DQM KPI:就像任何其他分析过程一样,DQM 需要使用 KPI 来评估工作的成功和绩效。在这种情况下,定义与您的一般业务目标相关的质量 KPI 非常重要。这一步是该过程的有害部分,我们将在帖子的下一部分详细介绍它。
- 集成DQM和BI:当我们谈论业务环境中的数据分析时,集成是流行语之一。实施 DQM 流程使各行各业的公司能够执行改进的商业智能。也就是说,将 DQM 流程与 BI 软件集成可以帮助自动化任务并确保全面做出更好的战略决策。
六、如何衡量数据质量
要衡量数据质量,您显然需要数据质量指标。它们也是评估您在提高信息质量方面的努力的关键。在各种质量管理技术中,数据质量指标必须是一流的,并且定义明确。这些指标涵盖了质量的不同方面,可以用首字母缩略词“ACCIT”来概括,代表准确性、一致性、完整性、完整性和及时性。
虽然数据分析可能相当复杂,但所有关键的DQM利益相关者都应该注意一些基本的测量方法。数据质量指标对于为未来的分析提供最佳和最坚实的基础至关重要。这些指标还将帮助您跟踪质量改进工作的有效性,这当然是确保您走在正确轨道上所必需的。让我们回顾一下这六类指标,并详细说明它们所包含的内容。
数据准确性
指实时发生的业务交易或状态变化。准确性应该通过源文档(即来自业务交互)来衡量,但如果不可用,则通过独立性质的确认技术来衡量。它将指示数据是否没有重大错误。
衡量准确性的典型指标是数据与错误的比率,它跟踪相对于数据集的已知错误(例如丢失、不完整或冗余条目)的数量。当然,这个比率应该随着时间的推移而增加,证明数据的质量会变得更好。没有具体的数据与错误比率,因为它很大程度上取决于数据集的大小和性质 – 但当然越高越好。在下面的示例中,我们看到数据错误率略低于 95% 准确率的目标:

一致性
严格来说,一致性指定从不同数据集中提取的两个数据值不应相互冲突。但是,一致性并不自动意味着正确性。
一致性的一个示例是例如,将验证公司每个部门的员工总和不超过该组织中的员工总数的规则。
完整性
完整性将指示是否有足够的信息来得出结论。可以通过确定每个数据输入是否为“完整”数据输入来衡量完整性。所有可用的数据输入字段都必须完整,并且数据记录集不应缺少任何相关信息。
例如,您可以使用一个简单的质量指标是数据集中空值的数量:在库存/仓储环境中,这意味着项目的每一行都引用一个产品,并且每个行都必须有一个产品标识符。在填写该产品标识符之前,订单项无效。然后,您应该在更长的时间内监视该指标,以降低它。
正直
完整性也称为数据验证,是指对数据进行结构测试,以确保数据符合程序。这意味着没有意外的数据错误,并且它对应于其适当的名称(例如,日期、月份和年份)。
在这里,这一切都归结为数据转换错误率。要使用的指标跟踪相对于整体而言有多少数据转换操作失败,或者换句话说,跟踪获取以一种格式存储的数据并将其转换为另一种格式的过程未成功执行的频率。在下面的示例中,转换错误率随时间推移表示:

及时
及时性符合对信息可用性和可及性的期望。换句话说,它测量从预期数据到随时可以使用数据之间的时间。
评估及时性的指标是数据实现时间值。这对于衡量和优化这段时间至关重要,因为它对企业的成功有很多影响。获取有价值的数据信息的最佳时刻总是现在,因此您越早访问该信息越好。
无论您选择哪种方式来提高数据质量,您始终需要衡量您的努力的有效性。所有这些数据质量指标示例都可以很好地评估您的流程,不应被排除在外。您评估得越多,您就越能改进。
七、什么是数据质量指标示例?

在此处查找您可以使用的 5 个数据质量指标示例:
- 数据与误差的比率:与整个数据集相比,监视已知数据错误的数量。
- 空值数:计算数据集中空字段的次数。
- 数据价值实现时间:评估从数据集中获取见解所需的时间。还有其他因素会影响它,但质量是它可以提高的主要原因之一。
- 数据转换错误率:此指标跟踪数据转换操作失败的频率。
- 数据存储成本:当您的存储成本上升而您使用的数据量保持不变或更糟的是减少时,这可能意味着存储的很大一部分数据的质量太低而无法使用。
您的机会:想要测试专业的分析软件吗?
探索我们的 14 天免费试用版,立即开始使用高质量数据!
八、为什么需要数据质量控制:使用案例
让我们来看看高质量数据在营销中的好处。想象一下,您有一个购买的列表,其中包含 10,000 封电子邮件、姓名、电话号码、企业和地址。然后,想象一下该列表的 20% 是不准确的。这意味着您列表中的 20% 有错误的电子邮件、姓名、电话号码等。这如何转化为数字?
好吧,可以这样看:如果您针对此列表中的名字运行Facebook广告活动,则成本将比应有的高出20% – 因为这些虚假名称条目。如果您进行实体邮件,多达 20% 的信件甚至无法到达收件人。通过电话,您的销售代表将把更多的时间浪费在错误的号码或接听不接的号码上。对于电子邮件,您可能会认为这没什么大不了的,但是您的打开率和其他指标会根据您的“脏”列表而失真。所有这些成本迅速增加,导致美国公司每年面临600亿美元的数据问题。
但是,让我们颠倒一下情况:如果您的数据质量评估是正确的,那么您将能够:
- 以比竞争对手更低的成本获得 Facebook 潜在客户
- 从您执行的每个直邮、电话或电子邮件活动中获得更多投资回报率
- 向最高管理层展示更好的结果,使您的广告支出更有可能增加
总而言之,在当今的数字世界中,拥有高质量的数据是群体领导者和“也跑者”之间的区别。
九、不良数据质量控制的后果
糟糕的数据质量控制会影响组织的各个方面,包括:
- 您的营销活动的成本是多少以及效果如何
- 您了解客户的准确性
- 您能多快将潜在客户转化为销售线索
- 您做出业务决策的准确性
根据 Gartner 最近发布的信息,数据质量差每年平均给企业造成 12 万美元的损失。这不仅会导致收入损失,还会导致决策不力,从而导致许多无形成本。
无形成本
我们不能直接检查无形成本。但是,我们可以在这方面使用我们的直觉和想象力。
假设您正在努力在公司创建数据驱动的文化。您正在带头这项工作,目前正在进行一项试点计划,以展示使用商业智能和分析做出数据驱动型决策的投资回报率。如果你的数据不是高质量的,你将遇到很多问题,向其他人展示BI的好处。如果你“事后”责怪数据质量,你的话听起来就像是借口。
但是,如果您预先解决问题,并向您的同事明确表示高质量是绝对必要的,并且是从数据中获得投资回报率的基石,那么您将处于更好的位置。
一个巨大的无形成本:错误的决定
也许你并没有试图说服别人相信数据驱动决策的重要性。也许您的公司已经在利用分析,但没有对数据质量控制进行尽职调查。在这种情况下,您可能会面临更大的爆炸:根据不准确的数据做出代价高昂的决策。
Scott Lowe指出,作为一名大数据专家,也许最糟糕的决定是用糟糕的数据做出的:这最终可能导致更大、更严重的问题。他宁愿听从自己的直觉做出决定,也不愿冒险用糟糕的数据做出决定。
例如,假设您有一个不正确的数据集,显示您当前的现金流是健康的。感到乐观,您大大扩展了业务。然后,一两个季度后,你遇到了现金流问题,突然间很难支付你的供应商(甚至你的员工)。这种灾难性的情况可以通过更高质量的数据来预防。
十、低质量数据的来源

我们刚刚介绍了如何清理可能不准确的数据。然而,俗话说,一盎司的预防胜过一磅的治疗。考虑到这一点,以下是低质量数据的一些来源,以便您可以注意随着时间的推移保持记录的准确性。请记住:保持数据的高质量不是一次性的工作。这是一个永无止境的持续过程。
来源#1:并购
当两家公司以某种方式结合在一起时,他们的数据就会进入这种新的工作关系。然而,就像两个有前妻孩子的人形成新的关系一样,事情有时会变得混乱。
例如,您的两家公司很可能使用完全不同的数据系统,甚至很可能。也许你们中的一个有一个遗留数据库,而另一个已经更新了东西。或者您使用不同的方法来收集数据。甚至有可能关系中的一个伴侣只是有很多不正确的数据。
数据专家史蒂夫·霍伯曼(Steve Hoberman)举了一个合并造成困难的例子。他写道,当这两个数据库彼此不一致时,你必须建立一个赢家-输家矩阵,说明哪个数据库的条目被认为是“真实的”。正如你所料,这些矩阵可能会变得非常复杂:在某些时候,“赢家-输家矩阵是如此复杂,以至于没有人真正了解发生了什么”,他说。事实上,程序员可以开始与业务分析师争论徒劳无益的问题,“抗抑郁药的消费量正在上升”。
行动步骤:如果计划合并或收购,请确保将IT负责人带到谈判桌前,以便在签署任何交易之前提前计划此类问题。
来源#2:从遗留系统过渡
对于非技术用户来说,可能很难理解从一个操作系统切换到另一个操作系统所固有的困难。直觉上,外行会期望事情被“设置”,以便最终用户可以轻松轻松地进行过渡。这绝对不符合现实。
许多公司对其已有数十年历史的数据库使用所谓的“遗留系统”,当不可避免的过渡时间到来时,需要处理一系列问题。这是由于数据系统本身的技术性质。每个数据系统都有三部分:
- 数据库(数据本身)
- “业务规则”(解释数据的方式)
- 用户界面(数据的呈现方式)
在从一个系统到另一个系统的数据转换过程中,这些不同的部分可能会带来不同的挑战。正如史蒂夫·霍伯曼(Steve Hoberman)所写,关注的焦点是数据转换过程中的数据结构。但这是一种失败的方法,因为源和目标的业务规则层非常不同。转换后的数据在实际情况下不可避免地不准确,即使它在技术上仍然是正确的。
操作步骤: 从旧系统过渡到较新的系统时,您的过渡团队仅是某个系统的专家是不够的。他们需要成为两者的专家,以确保过渡顺利进行。
源#3:用户错误
这是一个可能永远不会消失的问题,因为人类将始终参与数据输入,并且人类会犯错误。人们经常打错字,这必须得到解释。在他的TechTarget帖子中,史蒂夫·霍伯曼(Steve Hoberman)讲述了他的团队如何负责“清理”数据库并纠正所有错误条目的故事。
您可能会认为数据清理专家是万无一失的,对吧?好吧,事实并非如此。正如霍伯曼先生所说,“仍有3%的更正输入错误。这是一个以数据质量为主要目标的项目!
操作步骤: 创建贵公司使用的所有表格,尽可能简单明了地填写。虽然这不会完全防止用户错误,但它至少会减轻它。
十一、数据质量解决方案和工具:关键属性
到目前为止,我们已经提供了数据质量管理框架的详细指南,包括其优点、后果、示例等。现在,您可能想知道,我如何实现所有这些?答案是大数据质量管理工具。有许多解决方案可以帮助您评估信息的准确性和一致性。为了帮助您选择合适的功能,我们在这里列出了您应该在任何值得一提的 DQM 软件中寻找的前 5 个功能。
- 连接:为了能够应用所有质量规则,DQM软件应确保集成和连接作为基础。这意味着能够轻松连接来自多个来源的数据,例如内部、外部、云、本地等。
- 分析:数据分析使用户能够识别和了解质量问题。工具应该能够以高效、快速的方式提供性能分析功能,并考虑 DQM 支柱。
- 数据监控和可视化:为了能够评估数据的质量,有必要对其进行密切监测。因此,软件应使用在线仪表板形式的交互式数据可视化提供监视功能。
- 元数据管理: 良好的数据质量控制始于元数据管理。这些功能提供了必要的文档和定义,以确保在整个组织中理解和正确使用数据。它回答了数据用户的人员、内容、时间、地点、原因和方式问题。
- 用户友好性和协作性: 任何需要在当今现代环境中使用数据的解决方案都应该是用户友好的,并支持协作。正如在这篇文章中反复提到的,企业数据质量管理体系中有许多关键参与者,他们应该能够以简单智能的方式共享关键定义、规范和任务。
十二、总结
虽然维护高质量的数据似乎真的很痛苦,但考虑到其他公司也觉得DQM是一个巨大的麻烦。因此,如果您的公司是努力使其听起来的公司,那么您将自动在市场上获得竞争优势。俗话说,“如果很容易,每个人都会这样做。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于网络;编辑/翻译:数字化转型网默然。



