数据挖掘的流程有哪些?

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

这块其实很多地方都介绍过,也不废话了,我就引用下:

数据挖掘完整的步骤如下:

① 理解数据和数据的来源(understanding)。

② 获取相关知识与技术(acquisition)。

③ 整合与检查数据(integration and checking)。

④ 去除错误或不一致的数据(data cleaning)。数字化转型网www.szhzxw.cn

⑤ 建立模型和假设(model and hypothesis development)。

⑥ 实际数据挖掘工作(data mining)。

⑦ 测试和验证挖掘结果(testing and verification)。

⑧ 解释和应用(interpretation and use)。

这是网上搜索的知识百科。而我有我自己的看法,基本方法一致,但是还是有些区别。

第一步、领域专家讨论、预建模。

第二步、小范围采集、分析

第三步、领域专家讨论、修正模型

第四步、大范围采集、分析

第五步、得出结果数字化转型网www.szhzxw.cn

第六步、验证

第七步、应用

我的步骤跟常见步骤相比,就是突出了领域专家。

数据挖掘重点和难点是从现实中抽象出数学模型,数学模型包括有哪些参数,目标值,计算方法等,一堆数据,盲目去做统计分析,得出一个模型并不难,难的是有多大意义。从现实中抽象出数学模型是难点,也是必须的,做法是先让领域专家对相关领域作出基本的人为模型,然后做小范围分析,对比结果和领域常态特征再来调整,多次这样不断扩大样本的调整,才能建立真正有意义的模型。

在没有模型的前提下去分析,并以此为模型,那无异于盲人摸象,然后拼凑一个东西出来,一堆数据,盲目去做统计分析,得出一个模型并不难,难的是这个模型有多大意义。从现实中抽象出数学模型是难点,但是也是必须的,这个的做法是先让领域专家设定人为模型,然后做小范围分析,再来调整

当前业界数据挖掘最大的问题,就是过分看重数学处理,这种观点是基于一个基础:只要数据间有联系,通过统计学就可以看到变化,所以数学可以解决一切。产生这种的原因,在于早期的数据挖掘来源是统计分析,面对大量的数据,作出统计报表,然后去人为理解,这就是最原始的数据分析。也是因为这个,导致现在数学工具是越用越复杂,其实绝大多数数据挖掘,只需要基本的统计学知识而已。

数据挖掘是把现实的事物变化,抽象提取为数据,然后用数据来处理。从理论上说,如果能够掌握所有要素,纯粹数学的分析是可以找出这些数据间的关系的。但是掌握所有数据,在复杂问题的数据挖掘实践中,特别是社会化问题的分析中,只能是异想天开。因此,在复杂问题条件下,要尽可能依赖的关键所谓领域专家。

一个人看到一组数据,会对这组数据作出解读,这就是最原始、最本能的数据分析。但是我们也会发现,同样一组数据,不同人去看,会产生不同的解读。而在采集数据的时候,甚至也会有类似的变化,比如同样的对象,不同人去调查采集,会产生不同的结果。实际上,数据分析过程中的数学部分,是绝对理性的。但是产生这样的问题,关键在于背景专家身上。数字化转型网www.szhzxw.cn

所谓的领域专家,就是这些数据所在的领域的专业人士。因为不同专业差异化很大,单纯的数学和计算机背景的数据分析人员是无法处理、甚至是完全无法理解不同领域的数据的。一个领域专家,影响他的判断包括他的性格是否偏激、他对所涉及数据是否有利害关系。经过我们的总结,一名偏激的领域专家,更容易固执坚持自己的看法,在数据建模时候,有意或者无意去弱化不喜欢的数据、强化自己认可的数据。而利害关系更是可以强化这点。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于泰迪学社;编辑/翻译:数字化转型网Jack。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。https://www.szhzxw.cn/65606.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部