数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、什么是数据挖掘
数据挖掘是一个从大量、不完全、有噪声、模糊且随机的数据中提取隐含的、事先未知但又潜在有用的信息和知识的过程。它融合了多种技术,旨在揭示数据背后的隐藏模式、趋势和关联性。
从起源来看,数据挖掘一词起源于数据库中的知识发现。1989 年 8 月,在美国底特律市召开的第 11 届国际人工智能联合会议上首次提出了知识发现 KDD(Knowledge Discovery in Database)的概念。1995 年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据挖掘一词开始流传开来。1997 年,亚太地区召开一年一度的数据挖掘会议,标志着数据挖掘进入了发展阶段。1998 年成立数据库中的知识发现专业组。数字化转型网www.szhzxw.cn
数据挖掘可以针对任何类型的数据库进行,包括传统的关系数据库、文本数据库、Web 数据库等,发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。
数据挖掘的过程较为复杂,主要包括以下几个阶段:
数据预处理阶段:
数据清理:对不完整、不明确、大量且具有很大随机性的实际应用数据进行清洗,包括清除噪声、推导计算填补缺省和不完整数据、修正异常数据和清除重复数据。
数据集成:把来源不同、格式不同、特点和性质也不相同的数据进行物理上或逻辑上的有机集中。
数据选择:根据任务目标,从集成好的、包含大量数据的数据集合中确定关注的目标数据,将其抽取出来,得到具体挖掘任务的相应操作对象。
数据变换:根据知识发现的要求将数据进行再处理,将数据转换成合适被挖掘的数据形式,进行数据降维,找出真正有用的特征或变量表示数据。数据挖掘阶段:确定数据挖掘的目标,根据用户需求发现的知识类型,为选择合适数据挖掘算法提供依据。选择算法,根据数据本身的特点和预期实现的功能,选择对应的算法和模型,从数据中提取隐含的模型,可选方法包括回归分析、分类、聚类、决策树、神经网络和 Web 挖掘等,它们各自侧重于以不同的角度对数进行分析和挖掘。使用选择的算法,从数据中提取用户感兴趣的知识。数字化转型网www.szhzxw.cn
结果的评估与表示阶段:
对数据挖掘的产生的知识进行评估,去除冗余的和无用的知识。
对挖掘出的知识进行解释,将其转换成能够最终被用户理解的知识,发现的知识应当用高级语言、可视化表示形式或其他表示形式表示,使知识易于理解,能够直接被人使用,这要求系统采用有表达能力的知识表示技术,如树、图、图标、交叉表、矩阵或曲线。
数据挖掘的方法也多种多样:
分类和回归技术:这两种方法是数据挖掘中使用最多最频繁的两种。要想良好地使用分类技术要提前明确数据的类别。回归分析是用属性的历史数据预测未来的趋势,找出各个数据间的相关关系。
聚类分析:从大体上讲就是根据数据之间的相似之处进行数据分类。它是在没有明确数据类别前提下进行的。数字化转型网www.szhzxw.cn
关联规则:应用最为广泛的数据挖掘技术,是从错综复杂的数据中发现事物之间可能存在的关联或者联系,这些关系比较隐晦。
时序模式:与时序模式与回归模式有许多相似之处,但不同于的时序模式的属性值是随时间变化的。因而考虑的是复杂多变的数据在时间维度的关系。
异常检测:又称为偏差检测,主要用来发现与其他大部分对象不同的异常或者变化。异常检测在金融诈骗中发挥着巨大作用。数字化转型网www.szhzxw.cn
此外,根据关联规则,又能实现时序数据挖掘、空间序列数据挖掘和不确定数据挖掘等。空间数据挖掘分为描述性、解释型和预测型,能够实现将空间现象分布特征化、处理空间关系、预测另外的属性等。时序数据挖掘中,时序数据是与时间有关的一系列数据,可以进一步分为时间相关数据和序列相关数据,时间相关数据与数据产生的绝对时间有关,如银行账务、股票价格、设备运行日志等。
二、数据挖掘的过程
数据预处理阶段
数据清理:在数据挖掘过程中,数据清理是至关重要的一步。它主要包括清除噪声数据,这些噪声可能是由于测量误差、数据传输问题或其他因素产生的。此外,还需要填补缺省和不完整数据,确保数据的完整性。例如,对于一些调查问卷数据,可能存在部分受访者未回答某些问题的情况,这时就需要通过合理的方法进行填补,如使用平均值、中位数或基于其他相关数据进行推测。同时,修正异常数据也是数据清理的重要任务,异常数据可能是由于数据录入错误或特殊情况产生的,需要仔细识别并进行处理,以保证数据的准确性。清除重复数据可以避免数据冗余,提高数据处理效率。
数据集成:数据往往来自不同的来源,具有不同的格式。数据集成就是将这些来源不同、格式各异的数据集中起来。例如,企业可能有来自不同部门的数据库,包括销售数据、客户信息数据、库存数据等,这些数据的格式可能各不相同,需要进行物理上或逻辑上的有机集中。在数据集成过程中,需要解决数据的一致性和冗余性问题,确保集成后的数据能够准确反映实际情况。
数据选择:明确目标数据是数据挖掘的关键。根据任务目标,从集成好的、包含大量数据的数据集合中确定关注的目标数据,将其抽取出来,得到具体挖掘任务的相应操作对象。例如,在进行市场分析时,可能只关注特定地区、特定时间段内的销售数据和客户反馈数据,通过数据选择将这些目标数据提取出来,以便进行更深入的分析。数字化转型网www.szhzxw.cn
数据变换:将数据转换成合适挖掘的数据形式是数据变换的主要目的。这可能包括进行数据降维,找出真正有用的特征或变量表示数据。例如,对于高维的图像数据,可以通过主成分分析等方法进行降维,减少数据的复杂性,提高挖掘效率。同时,还可以根据知识发现的要求将数据进行再处理,使数据更适合特定的数据挖掘算法。
数据挖掘阶段
确定目标:明确数据挖掘的目标是选择合适算法的基础。根据用户需求发现的知识类型,确定数据挖掘的具体目标。例如,如果用户希望了解客户的购买行为模式,那么目标可能是发现客户购买不同产品之间的关联规则。这为选择合适的数据挖掘算法提供了依据。
选择算法:根据数据本身的特点和预期实现的功能,选择对应的算法和模型。不同的数据特点和功能需求需要不同的算法。例如,如果数据具有明显的分类特征,可以选择分类算法,如决策树、支持向量机等;如果数据没有明确的类别标签,但希望将数据分成不同的群组,可以选择聚类算法,如 K – 均值聚类、DBSCAN 等。可选方法包括回归分析、分类、聚类、决策树、神经网络和 Web 挖掘等,它们各自侧重于以不同的角度对数据进行分析和挖掘。数字化转型网www.szhzxw.cn
数据挖掘:使用选择的算法,从数据中提取用户感兴趣的知识。例如,通过关联规则挖掘算法,可以发现购物篮中不同商品之间的潜在关联;通过聚类算法,可以将客户分成不同的群体,以便更好地了解客户的行为特征。
结果的评估与表示阶段
评估知识:对数据挖掘的产生的知识进行评估,去除冗余的和无用的知识。可以通过多种方式进行评估,如使用准确性、性能、功能性、可用性和辅助功能等方面的指标。例如,准确性评估可以通过在数据挖掘系统上执行算法做的预测和分类的准确率来判断系统中的算法是否合理,数据采集是否全面以及数据预处理工作是否完善。性能评估可以考虑系统能否在商业平台运行、操作大数据集时的性能变化、运算效率等。功能性评估可以看系统是否提供足够多样的算法、能否避免挖掘过程黑箱化等。可用性评估可以考虑系统的用户界面是否友好、可视化效果是否好等。辅助功能评估可以看系统是否允许用户更改数据集中的错误值或进行数据清洗等。数字化转型网www.szhzxw.cn
解释知识:将挖掘出的知识转换成用户可理解的形式。对挖掘出的知识进行解释,使其能够被最终用户理解和使用。这可以通过高级语言、可视化表示形式或其他表示形式来实现。例如,可以使用图表、图形等可视化方式展示数据挖掘的结果,使知识易于理解。发现的知识应当用有表达能力的知识表示技术表示,如树、图、图标、交叉表、矩阵或曲线。同时,可以参考国外的数据挖掘业者的可视化展示方法,如使用 Google Chart、Tableau Software 等工具来展示数据挖掘结果,使数据挖掘的知识更加直观地呈现给用户。
三、数据挖掘的方法
数据挖掘的方法丰富多样,以下为常见的十种方法:
决策树法:决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根,底部有许多的树叶,它将纪录分解成不同的子集,每个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不同的外型,例如二元树、三元树或混和的决策树型态。决策树是一个利用树的模型进行决策的多分类模型,简单有效,易于理解。决策树由根节点、内部结点和叶节点组成。根节点包含数据集中的所有数据的集合;内部节点为一个判断条件,并且包含数据集中满足从根节点到该节点所有条件的数据的集合,根据内部结点的判断条件测试结果,内部节点对应的数据的集合别分到两个或多个子节点中;叶节点为最终的类别,被包含在该叶节点的数据属于该类别。决策树算法的伪代码中,大部分步骤都是简单而明确的,而最重要的步骤在于从 A 中选取最优的属性 a,可以说,属性选择的质量,决定了决策树的预测准确度。一般的原则是,希望通过不断划分节点,使得一个分支节点包含的数据尽可能的属于同一个类别,即 “纯度 “越来越高。这里列出三种常用的准则:信息增益准则、信息增益率准则、基尼指数准则。剪枝是应该决策树过拟合的一种重要方法,主要分为预剪枝和后剪枝。对于连续值属性,可以通过将连续属性值离散化来处理。
神经网络法:神经网络法是模拟生物神经系统的结构和功能,是一种通过训练来学习的非线性预测模型,它将每一个连接看作一个处理单元,试图模拟人脑神经元的功能,可完成分类、聚类、特征挖掘等多种数据挖掘任务。神经网络的学习方法主要表现在权值的修改上。其优点是具有抗干扰、非线性学习、联想记忆功能,对复杂情况能得到精确的预测结果;缺点首先是不适合处理高维变量,不能观察中间的学习过程,具有 “黑箱” 性,输出结果也难以解释;其次是需较长的学习时间。神经网络法主要应用于数据挖掘的聚类技术中。数字化转型网www.szhzxw.cn
关联规则法:关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。关联规则的一般表现为蕴含式规则形式:X—>Y,其中的 X 为前提或先导条件,Y 为结果或后继。关联规则不受因变量个数的限制,能够在大型数据库中发现数据之间的关联关系,所以其应用非常广泛。但一次关联分析输出的规则往往数量较多,且多数并无利用价值,所以对关联规则的解释和应用必须谨慎。关联规则衡量强度的指标有支持度和置信度,目标是找出所有满足支持度和置信度分别高于一个用户指定的最小支持度和最小置信度的关联规则。算法有 Apriori 算法和 FP – 树频集算法。
遗传算法:遗传算法模拟了自然选择和遗传中发生的繁殖、交配和基因突变现象,是一种采用遗传结合、遗传交叉变异及自然选择等操作来生成实现规则的、基于进化理论的机器学习方法。它的基本观点是 “适者生存” 原理,具有隐含并行性、易于和其他模型结合等性质。主要的优点是可以处理许多数据类型,同时可以并行处理各种数据;缺点是需要的参数太多,编码困难,一般计算量比较大。遗传算法常用于优化神经元网络,能够解决其他技术难以解决的问题。数字化转型网www.szhzxw.cn
聚类分析法:聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。根据定义可以把其分为四类:基于层次的聚类方法;分区聚类算法;基于密度的聚类算法;网格的聚类算法。常用的经典聚类方法有 K-mean,K-medoids,ISODATA 等。聚类分析是一种无监督学习,是在缺乏标签的前提下的一种分类模型。当我们对数据进行聚类后并得到簇后,一般会单独对每个簇进行深入分析,从而得到更加细致的结果。常见的聚类方法有不少,比如 K 均值(K-Means),谱聚类(Spectral Clustering),层次聚类(Hierarchical Clustering)。K 均值算法最大的优点就是运行速度快,能够处理的数据量大,且易于理解。但缺点也很明显,就是算法性能有限,在高维上可能不是最佳选项。在数据量不大时,可以优先尝试其他算法。当数据量过大时,可以试试 HDBSCAN。仅当数据量巨大,且无法降维或者降低数量时,再尝试使用 K 均值。
模糊集法:模糊集法是利用模糊集合理论对问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。模糊集合理论是用隶属度来描述模糊事物的属性。系统的复杂性越高,模糊性就越强。
web 页挖掘:通过对 Web 的挖掘,可以利用 Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。
逻辑回归分析:反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。数字化转型网www.szhzxw.cn
粗糙集法:是一种新的处理含糊、不精确、不完备问题的数学工具,可以处理数据约简、数据相关性发现、数据意义的评估等问题。其优点是算法简单,在其处理过程中可以不需要关于数据的先验知识,可以自动找出问题的内在规律;缺点是难以直接处理连续的属性,须先进行属性的离散化。因此,连续属性的离散化问题是制约粗糙集理论实用化的难点。
连接分析:它是以关系为主体,由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为何,提出有利于公司的方案。除了电信业之外,愈来愈多的营销业者亦利用连结分析做有利于企业的研究。
四、数据挖掘的应用
医学方面:数据挖掘在医学领域有着广泛的应用。它可以提高诊断准确率,通过分析大量的医疗数据,挖掘疾病高发人群,发现疾病及症状间的未知联系,探索化验指标间的影响关系及化验指标与疾病间的潜在影响,对未知的实验室指标值进行预测,可以探索合并症之间的关系,还可以自动发现一组高维实验室指标变量的异常等等。例如,聚类分析工具可以分析患者的疾病诊断数据,以进行探索性的数据分析,并考察产生的聚类结果的意义。对于糖尿病患者的数据,聚类分析工具可以按照年龄、种族、性别、体重指数和 BP 指数等产生聚类模式,并将数据划分到相应的自然组群中。关联规则分析在医学上也有应用,可以挖掘医疗数据中隐藏的关联模型,发现医疗数据中有用的规则,为医学专家提供参考。
金融方面:数据挖掘在金融领域被广泛应用于风险管理、信贷评估、市场营销、欺诈检测等方面。在风险管理方面,利用数据挖掘技术对大量的金融交易数据进行分析,识别潜在的风险因素,帮助金融机构更好地管理风险,提高风险控制能力。信贷评估中,通过分析客户的历史信用记录、财务状况等数据,构建信用评分模型,帮助金融机构更准确地评估客户的信用风险,从而更精准地制定贷款条件和利率。市场营销方面,金融机构可以通过数据挖掘技术更好地理解客户的需求和行为,精准定位目标客户群体,制定个性化的营销策略,提高营销效果。欺诈检测中,利用数据挖掘技术分析交易数据,识别异常交易模式,及时发现和阻止欺诈行为,保护客户利益和金融机构的资产安全。数字化转型网www.szhzxw.cn
高校管理:数据挖掘在高校管理中有诸多应用。为教育工作提供依据,应用数据挖掘技术可以获取学生的成绩,并以曲线图的形式呈现出来,以此为基础制定人才培养方案。了解学生的学业成绩,将学生的学业成绩和其他数据进行对比参考,如学生的图书馆借阅频次、学生的实践参与频次等,发现学生去图书馆借阅次数越多,主动学习能力越强,学业成绩越好;学生积极参加各项实践活动,综合素质得到提高,对学业同样有很大帮助。获取图书馆相关信息,数据挖掘技术可以为智能图书馆的构建奠定基础,统计每本图书的借阅次数,分析学生的偏好,完善图书馆的馆藏资源。为学生提供就业指导,高校管理信息系统应记录与市场就业相关的信息,为毕业学生提供就业市场的信息,为本校的优秀毕业生进行推荐,为企业提供优秀学生的成绩信息、获奖信息、实践信息等。划定特殊学生的群体,教师可以从高校管理信息系统中,调取学生的相关信息,把成绩偏低的学生汇聚到一起,了解其思想动态,给予更多的关心和重视,开展针对式教学。数字化转型网www.szhzxw.cn
电信方面:数据挖掘在电信增值业务中有着重要的应用。客户群体的分类方面,通过对客户属性指标、消费状况等数据指标的分析,将不同增值业务需求的客户细化为若干客户群,有利于增值业务营销决策者和营销人员针对不同客户群体的业务需求、群体结构等开展工作,提供符合不同群体需求的增值业务。目标客户的确定,通过对增值业务用户消费状况的分析,结合数据挖掘技术筛选出目标客户,提高营销工作的针对性。流失客户分析,通过数据挖掘技术实现流失客户特征的分析,得出导致客户流失的原因,明确不同细分群体的流失度,建立用户流失预警模型,及时采用赢回措施实施挽留。用户欺诈行为甄别,通过数据挖掘分析和确定欺诈行为潜在的特征模式,建立欺诈行为预警模型,及时检测到用户异常行为,并对其进行相应的控制措施,降低用户欺诈行为造成的损失与风险。产品营销渠道规划,运用数据挖掘技术对业务频繁模式和关联规则进行挖掘,科学布局线上和线下两种营销途径和推广策略,提升客户感受度和渠道利用率。市场分析,通过数据挖掘技术对业务市场进行分析,建立目标市场模型进行仿真,模拟业务开展状况,通过回归分析,对新型增值业务的发展趋势进行模拟和预测,提高增值业务决策的科学性,更准确地发现目标市场及增长趋势。
五、数据挖掘的重要性
数据挖掘在当今数字化时代具有至关重要的意义,主要体现在以下几个方面:
建立预测性模型,发现新的商业机会和价值:
通过数据挖掘技术,可以建立各种预测性模型,为企业提供前瞻性的洞察。例如,数模数据挖掘技术可以利用历史数据建立预测模型,对未来趋势进行预测,如预测客户的购买行为、市场的发展趋势等。在人工智能领域,数据挖掘也为系统提供了自动化决策和知识发现的方法,通过建立预测分析模型,从历史数据中预测未来的趋势,为企业提供有价值的决策支持。像在金融服务优化中,数据挖掘可用于股票市场预测与分析,通过数据挖掘在股票市场预测中的应用,为投资者提供决策依据。数字化转型网www.szhzxw.cn
帮助企业了解客户需求、优化运营流程、提高产品质量等:
数据挖掘能够深入分析消费者的行为、需求和偏好,帮助企业更好地了解客户。如利用数据挖掘分析消费者行为,通过收集大量消费者数据,包括购买行为、网站浏览行为、社交媒体行为等,深入了解消费者需求,发现消费者偏好,预测消费者行为,为企业制定产品策略、服务策略、营销策略等提供依据。在业务流程优化中,数据挖掘也发挥着重要作用。可以帮助企业优化运营流程,如通过对企业内部各种数据的挖掘和分析,发现运营流程中的瓶颈和问题,并提出改进措施。在生产过程优化中,数据挖掘可应用于生产计划与排程、质量管理与控制、能耗分析与优化等方面,提高生产效率和产品质量。在客户关系管理优化中,数据挖掘可用于客户细分与价值评估、客户满意度分析、客户流失预测与预警等,帮助企业更好地满足客户需求,提高客户满意度和忠诚度。数字化转型网www.szhzxw.cn
应对数据质量、计算能力、隐私保护等挑战:
随着数据量的不断增长,数据挖掘面临着诸多挑战。在数据质量方面,需要进行数据清洗、整合、转换、归一化、降维与特征选择等预处理工作,以确保数据的准确性和完整性。在计算能力方面,面对海量数据,需要采用分布式数据处理、内存计算技术等,提高数据挖掘算法的性能和可扩展性。同时,数据挖掘也需要重视数据安全和隐私保护,采取合适的措施保护数据,遵守相关法律法规,确保数据使用的合法性和合规性。例如,在大数据工业中,应对数据挖掘和分析的挑战时,需要重视数据安全和隐私保护,采取合适的措施保护数据,同时遵守相关法律法规,确保数据使用的合法性和合规性。在金融服务优化中,数据挖掘在信用评分与风险评估、欺诈检测与预防等方面也需要考虑数据安全和隐私保护问题。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 AI孪生新视界;编辑/翻译:数字化转型网Jack。

