数智化转型网szhzxw.cn 数字化转型网专题栏目 数据挖掘算法:Apriori(相关分析)

数据挖掘算法:Apriori(相关分析)

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

关联挖掘关系,从消费者交易记录中发现商品之间的关系。

Apriori原理

一、支持度

商品组合出现的次数与总次数之比。

五次购买,四次购买牛奶,牛奶支持度为4/5=0.8。数字化转型网www.szhzxw.cn

五次购买,三次购买牛奶+面包,牛奶+面包支持3/5=0.6。

二、置信度

购买商品A,购买商品B的概率有多大,发生A时发生B的概率有多大。

买了四次牛奶,其中两次买了啤酒,(牛奶->啤酒)的可信度是2/4=0.5。

三次买啤酒,其中两次买牛奶,(啤酒->牛奶)的可信度为2/3-0.67。

三、提升度

衡量商品A的出现,提高商品B出现概率的程度。

提升度(A->B)=置信度(A->B)/支持度(B)。

提升度>1,有提升;提升度=1,无变化;提升度1,下降。

四、、项集频繁

项集:可以是单一商品,也可以是商品组合。数字化转型网www.szhzxw.cn

频繁的项集是支持度大于最小支持度的项集(MinSupport)。

计算过程

(1)从K=1开始,经常筛选项集。

(2)在结果中,组合K+1项集,重新筛选。

(3)循环1,2步。K-1项集的结果是最终结果,直到找不到结果。

扩展:FP-Growth算法。

Apriori算法需要多次扫描数据库,性能低,不适合大数据量。

FP-growth算法,通过构建FP树的数据结构,将数据存储在FP树中,只需在构建FP树时扫描数据库两次,后续处理就不需要再访问数据库。数字化转型网www.szhzxw.cn

比喻:啤酒和纸尿裤一起卖。

沃尔玛通过数据分析发现,在美国有婴儿的家庭中,母亲通常在家照顾孩子,父亲去超市买尿布。

父亲在买纸尿裤的时候,经常会搭配几瓶啤酒来奖励自己。因此,超市试图推出一种将啤酒和纸尿裤放在一起的促销手段,这实际上大大增加了纸尿裤和啤酒的销量。

声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn

数字化转型网数据专题包含哪些内容

数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)

1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料

2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!

3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中

4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于科研的力量;编辑/翻译:数字化转型网Jack。

免责声明: 本网站(http://www.szhzxw.cn/)内容主要来自原创、合作媒体供稿和第三方投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。 本网站刊载的所有内容(包括但不仅限文字、图片、LOGO、音频、视频、软件、程序等) 版权归原作者所有。任何单位或个人认为本网站中的内容可能涉嫌侵犯其知识产权或存在不实内容时,请及时通知本站,予以删除。http://www.szhzxw.cn/64702.html
联系我们

联系我们

17717556551

邮箱: editor@cxounion.org

关注微信
微信扫一扫关注我们

微信扫一扫关注我们

关注微博
返回顶部