数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

关联挖掘关系,从消费者交易记录中发现商品之间的关系。
Apriori原理
一、支持度
商品组合出现的次数与总次数之比。
五次购买,四次购买牛奶,牛奶支持度为4/5=0.8。数字化转型网www.szhzxw.cn
五次购买,三次购买牛奶+面包,牛奶+面包支持3/5=0.6。
二、置信度
购买商品A,购买商品B的概率有多大,发生A时发生B的概率有多大。
买了四次牛奶,其中两次买了啤酒,(牛奶->啤酒)的可信度是2/4=0.5。
三次买啤酒,其中两次买牛奶,(啤酒->牛奶)的可信度为2/3-0.67。
三、提升度
衡量商品A的出现,提高商品B出现概率的程度。
提升度(A->B)=置信度(A->B)/支持度(B)。
提升度>1,有提升;提升度=1,无变化;提升度1,下降。
四、、项集频繁
项集:可以是单一商品,也可以是商品组合。数字化转型网www.szhzxw.cn
频繁的项集是支持度大于最小支持度的项集(MinSupport)。
计算过程
(1)从K=1开始,经常筛选项集。
(2)在结果中,组合K+1项集,重新筛选。
(3)循环1,2步。K-1项集的结果是最终结果,直到找不到结果。
扩展:FP-Growth算法。
Apriori算法需要多次扫描数据库,性能低,不适合大数据量。
FP-growth算法,通过构建FP树的数据结构,将数据存储在FP树中,只需在构建FP树时扫描数据库两次,后续处理就不需要再访问数据库。数字化转型网www.szhzxw.cn
比喻:啤酒和纸尿裤一起卖。
沃尔玛通过数据分析发现,在美国有婴儿的家庭中,母亲通常在家照顾孩子,父亲去超市买尿布。
父亲在买纸尿裤的时候,经常会搭配几瓶啤酒来奖励自己。因此,超市试图推出一种将啤酒和纸尿裤放在一起的促销手段,这实际上大大增加了纸尿裤和啤酒的销量。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于科研的力量;编辑/翻译:数字化转型网Jack。

