数据挖掘的步骤有哪些?

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、明确目标

在实施数据挖掘之前,你必须明白自己的目标,即需要通过挖掘去解决什么样的问题。

比如在餐饮行业,可能都会存在这方面的痛点,即如何调整中餐或晚餐的当班人数,以及为下一餐准备多少食材比较合理。如果解决了这个问题,那么对于餐厅来说既可以降低人工成本,又可以避免食材的浪费。

二、数据搜集

当你明确自己的目标或需要解决的问题后,下一步就需要准备数据,准备的数据即可以影响到这些问题的解决办法,这一步成为数据搜集过程。数据搜集过程尤为重要,其决定了后期工作进展的顺利程度。

比如和餐饮相关的数据:

食材数据:食材名称,食材品类,采购时间,采购数量,采购金额,当天剩余量等。

经营数据:经营时间,预定时间,预定台数,预定人数,上座台数,上座人数等。

其他数据:天气情况,交通便捷性,竞争对手动向,是否为节假日,用户口碑等。

常用爬虫方法来搜集数据。数字化转型网www.szhzxw.cn

三、数据清洗

通过数据搜集得到的相关数据必须保证“干净”,因为数据的质量高低将影响最终结果的准确性。通常数据会有以下几个方面影响数据的“干净”。

缺失值:由于个人隐私或设备故障导致某些观测在维度上的漏缺,一般称为缺失值。缺失值的存在可能会导致模型结果的错误,所以针对缺失值可以考虑删除法、替换法、插值法解决。

异常值:异常值一般指远离正常样本的观测点,它们的存在同样会影响模型的准确性,故可以考虑删除法或单独处理法。

数据的不一致性:主要是由于不同的数据源或系统并发不同步导致的数据不一致性,例如两个数据源中数据单位的不一致(一个以元为单位,一个以万元为单位);系统并发不同步导致一张电影票被多个用户购买。

量纲的影响:由于某些模型容易受到不同量纲的影响,因此需要通过数据的标准化方法将不同量纲的数据进行统一处理,如将数据集都压缩至0-1的范围。数字化转型网www.szhzxw.cn

维度灾难:当采集的数据包含上百乃至成千上万的变量时,往往会提高模型的复杂度,进而影响模型的运行效率,故需要采用方差分析法,相关系数法,递归特征消除法,主成分分析法等手段实现数据的特征提取或降维。

四、构建模型

据不完全统计,建模前的数据准备将占整个数据挖掘流程80%左右的时间。接下来,在数据保证“干净”的前提下,需要考虑以什么样的模型能进行建模。

分类模型:逻辑回归,KNN,决策树等。

回归模型:线性回归,支持向量回归,岭回归等。

以上模型都是传统机器学习算法,当然,还可以通过神经网络实现分类或回归。

五、模型评估

到此阶段,已经完成了数据挖掘流程中的绝大部分工作。并且通过数据得到解决问题的多个方案(模型),接下来要做的就是从这些模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映数据的真实性。例如,对于预测或分类模型,即使在数训练集中的表现很好,但在测试集中结果一般,说明该模型存在过拟合现象。数字化转型网www.szhzxw.cn

六、应用部署

通常,模型的构建和评估工作的完成,并不代表整个数据挖掘流程的结束,往往还需要最后的应用部署。尽管模型的构建和评估视数据挖掘工程师所擅长的,但是这些挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于木木自由;编辑/翻译:数字化转型网Jack。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/64363.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部