数智化转型网szhzxw.cn 数字化转型网专题栏目 什么是数据挖掘?数据挖掘到底在解决什么问题?

什么是数据挖掘?数据挖掘到底在解决什么问题?

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

一、什么是数据挖掘?

第一个问题,什么是数据挖掘?这个问题看似很简单,但似乎也很难有一个明确的答案。如果非要给数据挖掘一个定义的话,那么我认为数据挖掘就是寻找数据中隐含的知识,并用于产生商业价值。也就是说它是我们在数据中,尤其是在大量的数据中找到一些有价值,甚至是非常有价值的东西的一种手段。

二、为什么要做数据挖掘?

那么我们为什么要做数据挖掘呢?技术与商业就像一对双生子,在互相促进中不断演进发展。随之而来的就是各大公司业务突飞猛进,很多新模式也涌现出来,使得数据量激增。面对数以千万甚至上亿以及不同形式的数据,很难再用纯人工或者纯统计的方法,从成千上万的变量中找到其隐含的价值。我们需要一种规范的解决方案,能够利用并且充分利用这些数据里的每一个部分,通过一些自动化的机器学习算法,从数据中自动提取价值。而数据挖掘就提供了这样一系列的框架工具和方法,可以处理不同类型的大量数据,并且使用复杂的算法部署,去探索数据中的模式。数字化转型网www.szhzxw.cn

三,数据挖掘产生的动因

数据挖掘产生的动因主要有以下三点。

第一个就是海量的数据。随着互联网技术的发展,数据的生产、收集和存储也越来越方便,海量数据因此产生,比如我们常用的微信每天要产生超过380亿条数据,今日头条上每天要发布上百万的新文章,淘宝每天有上千万的包裹要发出。

第二个是维度的众多,在一个多维度的数据中,每增加一个维度,都会增加数据分析的复杂程度。比如点外卖事件涉及的维度就有浏览饭店的菜品形式有文字、图片、语言、视频等等。浏览时间、下单价格、交易的处理、分配配送员以及GPS信息,完成订单后的评价等等。数字化转型网www.szhzxw.cn

第三个是问题的复杂性。通常用数据挖掘解决的问题都比较复杂,很难用一些规则或者简单的统计给出结果。如果让开发者写一个微波炉的智能控制逻辑,我想难度不是很大,即便是有十几个甚至几十个按钮的控制中心,也不过是多花费一点时间而已。但如果要编写一段代码来区分某个图片中是否有一只猫咪,那要考虑的问题就太多了。使用传统的方法很难解决,而这恰恰是数据挖掘所擅长的。

四、数据挖掘有什么用处?

1.分类问题

第一个,它可以去解决的是分类问题。分类问题是最常见的问题。比如在我们的新闻网站判断一条新闻是社会新闻还是时政新闻,是体育新闻还是娱乐新闻,这就是一个分类问题。也就是对已知类别的数据进行学习,为新的内容标注一个类别。

2.聚类问题

第二个,它可以去解决的是聚类问题。聚类问题,聚类与分类不同,聚类的类别预先是不清楚的。我们的目标就是要去发现这些类别。聚类的算法比较适合一些不确定的类别场景。比如我们出去玩捡了一大堆不同的树叶回来,你不知道这些树叶是从什么树上掉落的,但是你可以根据它们的大小、形状、纹路、边缘等特征给树叶进行划分,最后得到三个较小的树叶堆,每一堆树叶都属于同一个种类。

3.回归问题

第三个,回归问题简单来说,回归问题可以看作高中学过的解线性方程组,它的最大特点,生成的结果是连续的,而不像分类和聚类,生成的是一种离散的结果。比如使用回归的方法来预测某个房子的总价,假设总价只跟房子的面积有关系,那么我们就可以构建出一个方程来表示房子的面积与房子总价的关系。如何根据已知的面积和总价的值解出它们的系数,就是回归问题要解决的回归方法。构建了一个模型去拟合已知的数据,然后去预测因变量的结果。数字化转型网www.szhzxw.cn

4.关联问题

第四个问题是关联问题。关联问题最常见的一个场景就是推荐,比如你在京东或者淘宝购物的时候,在选中一个商品之后,往往会给你推荐几种其他商品组合,这种功能就可以使用关联的挖掘来实现。

五、数据挖掘怎么做?

到了这里,我们清楚了数据挖掘可以解决哪些问题,那么具体该怎么去做呢?数据挖掘也是有方法论的,实际上数据挖掘经过了数十年的发展和无数专家学者的研究,有很多人提出了完整的流程框架,这对于我们来说简直是福音。当然,如果你在使用的过程中觉得这些东西有问题,或者还有改进的空间,那也不要惧怕权威。

如何依照这个方法的六个步骤进行数据挖掘。

1.业务理解

在这个流程中,第一部分是业务理解。想象你在一个外贸公司上班,有一天你的老板突然跟你说,小明,你能不能训练一个模型来预测一下明年公司的利润呢?这就是一个业务需求。若要解决这个问题,首先你要弄明白需求是什么,这就是业务理解,或者也可以叫做商业理解。比如你要搞清楚什么是利润,利润的构成是什么样的,利润受什么影响?同事老板说的利润是净利润还是毛利润等等问题。

业务理解主旨是理解你的数据挖掘要解决什么业务问题。任何公司启动数据挖掘都是想为业务赋能。因此我们必须从商业或者从业务的角度去了解项目的要求和最终的目的,去分析整个问题涉及的资源局限、设想,甚至是风险意外等情况,从业务出发到业务中去。数字化转型网www.szhzxw.cn

2.数据理解

第二个步骤,明白了问题,还要明白解决问题需要什么数据,这就是数据理解。比如这个时候你的老板又跟你说了,小明我想改改需求,能不能多给我做几个模型,把竞品公司明年的利润也都算一算,我想对比一下。然而巧妇难为无米之炊,你根本就没有这个数据,这个需求也就无从完成。

数据理解阶段始于数据的收集工作,但我认为重点是在业务理解的基础上,对我们所掌握的数据要有一个清晰明确的认识,了解有哪些数据,哪些数据可能对目标有影响,哪些可能是冗余数据,哪些数据存在不足或者缺失等等。需要注意的是,数据理解和业务理解是相辅相成的,因此,你在制定数据挖掘计划的时候,不能只是单纯的谈需求,这也是大多数初入门的数据挖掘工程师容易忽略的。数据理解的不好,很可能会导致你对业务需求的错误评估,从而影响后续进度甚至是结果。

3.数据准备

完成了上面两个步骤之后,我们就可以进入到第三个环节准备数据了。你需要找销售要销售数据,找采购要采购数据,找财务要各种收入支出数据,然后整理所有需要用到的数据,想办法补全那些缺失的数据,计算各种统计值等等。

数据准备就是基于原始数据去构建数据挖掘模型所需的数据集的所有工作,包括数据收集、数据清洗、数据股权、数据整合、数据转换、特征提取等一系列的动作。事实上,在大多数的数据挖掘项目中,数据准备是最困难、最艰巨的一步。如果你的数据足够干净和完整,那么在建模和评估阶段所付出的精力就越少,甚至都不必去使用什么复杂的模型,就可以得到足够好的效果。所以这个阶段也是十分重要的。

4.构建模型

完成了数据的准备,我们就可以进入到构建模型的阶段,这个阶段也可以叫做训练模型,我们会把准备好的数据投喂给算法,所以这个阶段重点解决的是技术方面的问题,会选用各种各样的算法模型来处理数据,让模型学习数据的规律,并产出模型用于后续的工作。对于同一个数据挖掘的问题类型,我们可以有多种方法选择使用。如果有多重技术要使用,那么在这一任务中,对于每一个要使用的技术,要分别对待一些建模方法,对数据的形式有具体的要求,比如SVM算法只能输入数值型的数据,因此在这一阶段重新回到数据准备阶段执行某些任务也是非常有必要的。数字化转型网www.szhzxw.cn

5.评估模型

训练好了模型,我们就可以进入到模型评估的阶段。在这个阶段,我们已经建立一个或者多个高质量的模型。但是模型的效果如何,能否满足我们的业务需求,就需要使用各种评估手段、评估指标,甚至让业务人员一起参与进来,彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤,以确保这些模型达到了目标。在评估之后会有两种情况,一种是评估通过,进入到上线部署阶段。另一种当然就是评估不通过,那么就要反过来再进行迭代更新了。数字化转型网www.szhzxw.cn

6.模型部署

如果我们顺利地通过了评估,终于到了部署阶段,此时可能还要解决一些实际的问题。比如长期运行的模型是否有足够的机器来支撑数据量以及并发程度会不会造成我们部署的服务出现问题。但是关于数据挖掘的生命周期可能还远未结束,关于一些特殊情况的出现可能仍然无法处理。以及在后续的进程中,随着新数据的产生以及变化,我们的模型仍然会发生一些变化。所以部署是一个数据挖掘项目的结束,也是一个数据挖掘项目的开始。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 派森小木屋;编辑/翻译:数字化转型网Jack。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/64169.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部