数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

跨行业数据挖掘标准流程CRoss Industry Standard Process-Data Mining(CRISP-DM),是业界最流行的数据挖掘工作流程模型,于1999年由欧盟机构联合起草。该流程模型分为六个步骤:业务理解、数据理解、数据准备、建模、评估和部署应用。这些步骤并非一成不变的,也可以根据需要调整顺序。
一、做数据挖掘的步骤一:业务理解(business understanding)
在这个阶段我们必须从商业的角度明确要通过数据挖掘解决什么问题。
二、做数据挖掘的步骤二:数据理解(data understanding)
数据理解阶段主要是收集相关数据,并检查解决问题所需要的数据是否收集齐全。
三、做数据挖掘的步骤三:数据准备(data preparation)
数据准备阶段主要是从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。根据与挖掘目标的相关性、数据质量以及技术限制,选择在分析中使用的数据,并进一步对数据进行清理转换。举例来说:
噪声数据:找到重复记录,找到错误的属性值,平滑数据;数字化转型网www.szhzxw.cn
数据转化:数据正则化,数据类型转化,属性和实例筛选;
缺失值:丢弃含有缺失值的记录,用均值进行代替,使用相似实例的对应值进行代替。
四、做数据挖掘的步骤四:建模(modeling)
在建模阶段,要选择建模方法,并通过构建和评估模型对参数进行校准。对于同一个数据挖掘的问题类型,可以选择使用多种建模方法,但对于每一个要使用的技术要分别对待。一些建模方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶段执行某些任务有时是非常必要的。
建模的过程包括:一是选择要使用的算法/技术;二是选择训练数据和测试数据;三是指定输入属性集,如果是监督性学习,选择一个或多个属性;四是选择学习的参数值;五是执行数据挖掘工具。
五、做数据挖掘的步骤五:评估(evaluation)
到此为止,已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前,有必要彻底评估模型,确保模型达到业务目标。使用测试数据对模型进行测试,可以得到一些指标比如模型的准确率、精度、召回率,这些指标可用来评估模型的好坏。数字化转型网www.szhzxw.cn
首先要介绍一下混淆矩阵(confusion matrix),给定一个模型的预测标签时,它可以被用来快速计算精度和召回率。二分类的混淆矩阵总共包含四个不同的结果:真正例(TP)、假正例(FP)、真反例(TN),以及假反例(FN)。列表示真实值,行表示预测值。行和列的交叉点指的就是这四种结果。例如,如果我们将一个数据点预测为正例,但是它实际上是反例,那么这就是一个假正例。
准确率Accuracy
准确率=(真正例+真反例)/(真正例+假反例+假正例+真反例)。也就是所有判断正确的情况占所有样本的比例。
召回率Recall,又称查全率
召回率=真正例/(真正例+假反例)。也就是正确判为XXX占实际所有XXX的比例。
精度Precision,又称查准率数字化转型网www.szhzxw.cn
精度=真正例/(真正例+假正例),也就是在所有判为XXX中,真正的XXX的比例。
六、做数据挖掘的步骤六:模型部署(deployment)
模型发布又称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的信息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。当然,在实际的数据挖掘工作中,根据不同的企业业务需求,模型发布的具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 金融IT那些事儿;编辑/翻译:数字化转型网Jack。

