数据挖掘的基本概念和工作流程-数智化转型网szhzxw.cn

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、数据挖掘对于数据业务化意义重大

什么叫数字化？一切业务数据化，一切数据业务化。数据业务化绝不是数据的简单展现，而是要将数据中的价值提炼出来，并在实际业务中应用，支持业务操作和管理中的决策。所以数字化转型中必须要要提升数据挖掘能力，才能获取有价值的信息，并返回到业务中去，实现数据业务化。

二、什么是数据挖掘？

数据挖掘，Data Mining，简称DM，是从大量数据数据中通过算法抽取出隐含的、先前未知的、可能有用的信息的过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，作出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，作出正确的决策。数字化转型网www.szhzxw.cn

数据挖掘也叫知识发现，Knowledge Discovery in Database,，简称KDD。

三、数据挖掘注重什么？

一是注重适用于大数据集的技术，比如前面说的人工智能、统计分析等。

二是归纳得到结论的可能性，训练集中发现的规则在新数据集中得仍然存在，预测的效果是不是足够好。

三是要有可执行的结果，能够根据结果提出适当的策略/政策/预测。数字化转型网www.szhzxw.cn

四、数据挖掘能做什么？

针对我们不同的数据挖掘目标，需要采用不同的算法。常见的数据挖掘目标有预测、分类、探索等，数据挖掘算法分为监督性和非监督性两大类。具体见如下表格：

目标	监督性	非监督性
预测（针对连续型变量）：客户生命价值，资产价格变化趋势	回归、决策树、神经网络	不可行
分类（针对离散变量）：流失客户预测，客户还款行为预测（欠款，提前还款）	逻辑回归、决策树、神经网络、判别式分析、近邻模型	聚类神经网络自组织特征映射
探索：高价值客户/产品的关键特征，基于数据定义的客户画像	决策树	主成分分析聚类
相似：金融产品菜篮子分析	无应用	关联规则序列分析链接分析

五、怎么做数据挖掘？

跨行业数据挖掘标准流程CRoss Industry Standard Process-Data Mining（CRISP-DM），是业界最流行的数据挖掘工作流程模型，于1999年由欧盟机构联合起草。该流程模型分为六个步骤：业务理解、数据理解、数据准备、建模、评估和部署应用。这些步骤并非一成不变的，也可以根据需要调整顺序。

1.做数据挖掘的步骤一：业务理解（business understanding）

在这个阶段我们必须从商业的角度明确要通过数据挖掘解决什么问题。

2.做数据挖掘的步骤二：数据理解（data understanding）

数据理解阶段主要是收集相关数据，并检查解决问题所需要的数据是否收集齐全。

3.做数据挖掘的步骤三：数据准备（data preparation）

数据准备阶段主要是从原始粗糙数据中构建最终数据集（将作为建模工具的分析对象）的全部工作。数据准备工作有可能被实施多次，而且其实施顺序并不是预先规定好的。根据与挖掘目标的相关性、数据质量以及技术限制，选择在分析中使用的数据，并进一步对数据进行清理转换。举例来说：

噪声数据：找到重复记录，找到错误的属性值，平滑数据；数字化转型网www.szhzxw.cn

数据转化：数据正则化，数据类型转化，属性和实例筛选；

缺失值：丢弃含有缺失值的记录，用均值进行代替，使用相似实例的对应值进行代替。

4.做数据挖掘的步骤四：建模（modeling）

在建模阶段，要选择建模方法，并通过构建和评估模型对参数进行校准。对于同一个数据挖掘的问题类型，可以选择使用多种建模方法，但对于每一个要使用的技术要分别对待。一些建模方法对数据的形式有具体的要求，因此，在这一阶段，重新回到数据准备阶段执行某些任务有时是非常必要的。

建模的过程包括：一是选择要使用的算法/技术；二是选择训练数据和测试数据；三是指定输入属性集，如果是监督性学习，选择一个或多个属性；四是选择学习的参数值；五是执行数据挖掘工具。

5.做数据挖掘的步骤五：评估（evaluation）

到此为止，已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前，有必要彻底评估模型，确保模型达到业务目标。使用测试数据对模型进行测试，可以得到一些指标比如模型的准确率、精度、召回率，这些指标可用来评估模型的好坏。数字化转型网www.szhzxw.cn

首先要介绍一下混淆矩阵（confusion matrix），给定一个模型的预测标签时，它可以被用来快速计算精度和召回率。二分类的混淆矩阵总共包含四个不同的结果：真正例（TP）、假正例（FP）、真反例（TN），以及假反例（FN）。列表示真实值，行表示预测值。行和列的交叉点指的就是这四种结果。例如，如果我们将一个数据点预测为正例，但是它实际上是反例，那么这就是一个假正例。

准确率Accuracy

准确率=（真正例+真反例）/（真正例+假反例+假正例+真反例）。也就是所有判断正确的情况占所有样本的比例。

召回率Recall，又称查全率

召回率=真正例/(真正例+假反例)。也就是正确判为XXX占实际所有XXX的比例。

精度Precision，又称查准率数字化转型网www.szhzxw.cn

精度=真正例/(真正例+假正例)，也就是在所有判为XXX中，真正的XXX的比例。

6.做数据挖掘的步骤六：模型部署（deployment）

模型发布又称为模型部署，建立模型本身并不是数据挖掘的目标，虽然模型使数据背后隐藏的信息和知识显现出来，但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来，并用来改善运营和提高效率。当然，在实际的数据挖掘工作中，根据不同的企业业务需求，模型发布的具体工作可能简单到提交数据挖掘报告，也可能复杂到将模型集成到企业的核心运营系统中去。

声明：本文来自网络，版权归作者所有。文章内容仅代表作者独立观点，不代表数字化转型网立场，转载目的在于传递更多信息。如有侵权，请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题包含：数字化转型网（www.szhzxw.cn）

1、数据相关外脑支持：100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社：与全球数据相关专家、实践者共同探讨相关问题，推动产业发展！

3、国际认证培训：目前已引进DAMA国际认证CDMP，其他国内外认证也在逐步引进中

4、典型案例参考：与数字化转型网数据要素X研习社社员一起学习典型案例，共探企业数据落地应用

本文由数字化转型网（www.szhzxw.cn）转载而成，来源于金融IT那些事儿；编辑/翻译：数字化转型网Jack。

数据挖掘的基本概念和工作流程

一、数据挖掘对于数据业务化意义重大

二、什么是数据挖掘？

三、数据挖掘注重什么？

四、数据挖掘能做什么？