数智化转型网szhzxw.cn 数字化转型网专题栏目 关于数据挖掘,你了解多少?

关于数据挖掘,你了解多少?

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数据挖掘更像是从荒凉的草原上收获美味的果实,而不是在广阔的矿山中寻找金矿。不知道有没有金脉,但草原上肯定有果实。然而在实际数据中,有很多神秘数据无法使用,也有很多数据不清楚这棵树是否真的结出可食用的果实。首先我们要清理草原,但是清理这片辽阔的草原需要很多时间。实际收获果实通常需要 80% 的时间。

一、什么是数据挖掘?

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。

数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数字化转型网www.szhzxw.cn

数据挖掘是一种技术,例如可以基于对每个客户的深刻理解,在公司与客户之间形成长期良好关系的方法和策略。更具体地说可以说是分析公司收集的大量数据,发现有用的模式和规则,并支持营销活动的统计方法和工具的集合。

二、数据挖掘的2种方法是什么?

比较数据挖掘和统计分析的区别,数据挖掘是知识发现,统计分析是假设检验,但真的是这样吗?

假设检验(面向目标) 数据挖掘有一个客观变量来预测购买量和客户反应,并据此对客户进行分类。回归分析、决策树和神经网络等许多技术都用于有目的地构建模型。

知识发现(探索性)数据挖掘没有目标变量,试图从获得的数据中寻找有用的规则、模式、相似性等,作为一种典型的方法用于购物篮分析,属于关联分析。数字化转型网www.szhzxw.cn

在假设检验数据挖掘中,估计和理解是指估计和理解定量的数字,例如在什么地区销售什么样的产品,销售多少。分类提炼 是指将各个地区畅销的产品和产品类别进行提炼,分类整理后进行分析。这两个是为了正确识别当前的情况,但预测 不是当前的情况,而是通过创建某种模型来预测未来的销量和畅销产品。统计分析处理的数据量比较少,数据挖掘可能更多。数据挖掘也有知识发现的成分,但不是通过输入数据就能自动发现的。应该认识到数据挖掘有两种类型:不仅是知识发现,还有假设检验,就像统计分析一样。

另一方面,知识启发式数据挖掘 关联规则制定 是探索性地同时知道买了什么和买了什么。 聚类 是指根据购买趋势等对相似的人进行分组,并尝试对每个组实施最佳措施。由于这两种方法没有目标变量,所以它们对应于多元分析中的汇总方法,但也不是没有目标的。

聚类和分类的区别在于分组依据是基于预定义的属性、购买金额等,还是分组基于事后定义的探索性依据。分位分析、RFM 分析等是对客户进行分组的类似方法,但基于预定义的标准,例如购买数量和频率。在聚类分析中,由于某种原因,分组是任意的,并且在事后进行分析以了解组的特征,因此方法完全不同。

文本挖掘是一种具有代表性的 了解群体特征 的数据挖掘方法,用于假设检验和知识发现。文本挖掘可用于定性和定量地了解有目的所说的内容,或探索性地发现所说的内容。数字化转型网www.szhzxw.cn

这样就有了两种类型的数据挖掘:假设检验(面向目标)数据挖掘和知识发现(探索)数据挖掘。

三、数据挖掘的步骤?

1. 明确目标

在实施数据挖掘之前,你必须明白自己的目标,即需要通过挖掘去解决什么样的问题。

比如在餐饮行业,可能都会存在这方面的痛点,即如何调整中餐或晚餐的当班人数,以及为下一餐准备多少食材比较合理。如果解决了这个问题,那么对于餐厅来说既可以降低人工成本,又可以避免食材的浪费。

2. 数据搜集

当你明确自己的目标或需要解决的问题后,下一步就需要准备数据,准备的数据即可以影响到这些问题的解决办法,这一步成为数据搜集过程。数据搜集过程尤为重要,其决定了后期工作进展的顺利程度。

比如和餐饮相关的数据:

食材数据:食材名称,食材品类,采购时间,采购数量,采购金额,当天剩余量等。

经营数据:经营时间,预定时间,预定台数,预定人数,上座台数,上座人数等。

其他数据:天气情况,交通便捷性,竞争对手动向,是否为节假日,用户口碑等。

常用爬虫方法来搜集数据。数字化转型网www.szhzxw.cn

3. 数据清洗

通过数据搜集得到的相关数据必须保证“干净”,因为数据的质量高低将影响最终结果的准确性。通常数据会有以下几个方面影响数据的“干净”。

缺失值:由于个人隐私或设备故障导致某些观测在维度上的漏缺,一般称为缺失值。缺失值的存在可能会导致模型结果的错误,所以针对缺失值可以考虑删除法、替换法、插值法解决。

异常值:异常值一般指远离正常样本的观测点,它们的存在同样会影响模型的准确性,故可以考虑删除法或单独处理法。

数据的不一致性:主要是由于不同的数据源或系统并发不同步导致的数据不一致性,例如两个数据源中数据单位的不一致(一个以元为单位,一个以万元为单位);系统并发不同步导致一张电影票被多个用户购买。

量纲的影响:由于某些模型容易受到不同量纲的影响,因此需要通过数据的标准化方法将不同量纲的数据进行统一处理,如将数据集都压缩至0-1的范围。数字化转型网www.szhzxw.cn

维度灾难:当采集的数据包含上百乃至成千上万的变量时,往往会提高模型的复杂度,进而影响模型的运行效率,故需要采用方差分析法,相关系数法,递归特征消除法,主成分分析法等手段实现数据的特征提取或降维。

4. 构建模型

据不完全统计,建模前的数据准备将占整个数据挖掘流程80%左右的时间。接下来,在数据保证“干净”的前提下,需要考虑以什么样的模型能进行建模。

分类模型:逻辑回归,KNN,决策树等。

回归模型:线性回归,支持向量回归,岭回归等。

以上模型都是传统机器学习算法,当然,还可以通过神经网络实现分类或回归。

5. 模型评估

到此阶段,已经完成了数据挖掘流程中的绝大部分工作。并且通过数据得到解决问题的多个方案(模型),接下来要做的就是从这些模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映数据的真实性。例如,对于预测或分类模型,即使在数训练集中的表现很好,但在测试集中结果一般,说明该模型存在过拟合现象。数字化转型网www.szhzxw.cn

6. 应用部署

通常,模型的构建和评估工作的完成,并不代表整个数据挖掘流程的结束,往往还需要最后的应用部署。尽管模型的构建和评估视数据挖掘工程师所擅长的,但是这些挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。

四、 数据挖掘的应用场景?

针对我们不同的数据挖掘目标,需要采用不同的算法。常见的数据挖掘目标有预测、分类、探索等,数据挖掘算法分为监督性和非监督性两大类。具体见如下表格:

目标监督性非监督性
预测(针对连续型变量):客户生命价值,资产价格变化趋势回归、决策树、神经网络不可行
分类(针对离散变量):流失客户预测,客户还款行为预测(欠款,提前还款)逻辑回归、决策树、神经网络、判别式分析、近邻模型聚类神经网络自组织特征映射
探索:高价值客户/产品的关键特征,基于数据定义的客户画像决策树主成分分析聚类
相似:金融产品菜篮子分析无应用关联规则序列分析链接分析

1.教育领域

数据挖掘技术的应用已经渗入到教育教学的各个方面,如支持教育科学决策、实施个性化教育、对学生的学业成绩进行评估等。数据挖掘的实际应用逐渐突破了传统的教学模式,改善了教学效果,促进了教学质量的提升。

2.风控领域

数据挖掘作为深层次的数据信息分析方法,能够对各种因素之间隐藏的内在联系进行全面分析。目前在风控领域可应用于信贷风险评估、交易欺诈识别、黑产防范及消费信贷四个方面,通过风险预警,可以让风险管理者提前做好准备,从而为决策提供参考信息。数字化转型网www.szhzxw.cn

3.医疗领域

目前,医院已经积累了涵盖患者、费用、药物以及相关管理信息等数据资源,数量庞大且类型复杂。数据挖掘技术则能够帮助医院从中提取出有价值的信息,满足医疗服务各个环节的需求。其在医疗成本的预测和控制、慢性疾病的预警、医疗信息质量管理等方面,都起到了明显的正向作用。····Part5 数据挖掘的必备技能点?数据挖掘涉及的内容比较泛,涉及的内容包括数据库、数据仓库、机器学习、信息检索。还有数据库理论、数学基础(包括数理统计、概率、图论等),还必须熟练掌握一种编程语言(包括java,python等),还要会使用数据挖掘工具软件(weka、matlab、spss等)。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于木木自由;编辑/翻译:数字化转型网Jack。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/64364.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部