数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、明确目标
在实施数据挖掘之前,你必须明白自己的目标,即需要通过挖掘去解决什么样的问题。
比如在餐饮行业,可能都会存在这方面的痛点,即如何调整中餐或晚餐的当班人数,以及为下一餐准备多少食材比较合理。如果解决了这个问题,那么对于餐厅来说既可以降低人工成本,又可以避免食材的浪费。
二、数据搜集
当你明确自己的目标或需要解决的问题后,下一步就需要准备数据,准备的数据即可以影响到这些问题的解决办法,这一步成为数据搜集过程。数据搜集过程尤为重要,其决定了后期工作进展的顺利程度。
比如和餐饮相关的数据:
食材数据:食材名称,食材品类,采购时间,采购数量,采购金额,当天剩余量等。
经营数据:经营时间,预定时间,预定台数,预定人数,上座台数,上座人数等。
其他数据:天气情况,交通便捷性,竞争对手动向,是否为节假日,用户口碑等。
常用爬虫方法来搜集数据。数字化转型网www.szhzxw.cn
三、数据清洗
通过数据搜集得到的相关数据必须保证“干净”,因为数据的质量高低将影响最终结果的准确性。通常数据会有以下几个方面影响数据的“干净”。
缺失值:由于个人隐私或设备故障导致某些观测在维度上的漏缺,一般称为缺失值。缺失值的存在可能会导致模型结果的错误,所以针对缺失值可以考虑删除法、替换法、插值法解决。
异常值:异常值一般指远离正常样本的观测点,它们的存在同样会影响模型的准确性,故可以考虑删除法或单独处理法。
数据的不一致性:主要是由于不同的数据源或系统并发不同步导致的数据不一致性,例如两个数据源中数据单位的不一致(一个以元为单位,一个以万元为单位);系统并发不同步导致一张电影票被多个用户购买。
量纲的影响:由于某些模型容易受到不同量纲的影响,因此需要通过数据的标准化方法将不同量纲的数据进行统一处理,如将数据集都压缩至0-1的范围。数字化转型网www.szhzxw.cn
维度灾难:当采集的数据包含上百乃至成千上万的变量时,往往会提高模型的复杂度,进而影响模型的运行效率,故需要采用方差分析法,相关系数法,递归特征消除法,主成分分析法等手段实现数据的特征提取或降维。
四、构建模型
据不完全统计,建模前的数据准备将占整个数据挖掘流程80%左右的时间。接下来,在数据保证“干净”的前提下,需要考虑以什么样的模型能进行建模。
分类模型:逻辑回归,KNN,决策树等。
回归模型:线性回归,支持向量回归,岭回归等。
以上模型都是传统机器学习算法,当然,还可以通过神经网络实现分类或回归。
五、模型评估
到此阶段,已经完成了数据挖掘流程中的绝大部分工作。并且通过数据得到解决问题的多个方案(模型),接下来要做的就是从这些模型中挑选出最佳的模型,主要目的就是让这个最佳的模型能够更好地反映数据的真实性。例如,对于预测或分类模型,即使在数训练集中的表现很好,但在测试集中结果一般,说明该模型存在过拟合现象。数字化转型网www.szhzxw.cn
六、应用部署
通常,模型的构建和评估工作的完成,并不代表整个数据挖掘流程的结束,往往还需要最后的应用部署。尽管模型的构建和评估视数据挖掘工程师所擅长的,但是这些挖掘出来的模式或规律是给真正的业务方或客户服务的,故需要将这些模式重新部署到系统中。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于木木自由;编辑/翻译:数字化转型网Jack。

