数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。

关联关系挖掘,从消费者交易记录中发掘商品与商品之间的关联关系。
一、原理
支持度
某个商品组合出现的次数与总次数之间的比例。
5次购买,4次买了牛奶,牛奶的支持度为4/5=0.8;数字化转型网www.szhzxw.cn
5次购买,3次买了牛奶+面包,牛奶+面包的支持度为3/5=0.6。
置信度
购买了商品A,有多大概率购买商品B,A发生的情况下B发生的概率是多少?
买了4次牛奶,其中2次买了啤酒,(牛奶->啤酒)的置信度为2/4=0.5;
买了3次啤酒,其中2次买了牛奶,(啤酒->牛奶)的置信度为2/3=0.67。
提升度
衡量商品A的出现,对商品B的出现 概率提升的程度
提升度置信度支持度
提升度>1,有提升;
提升度=1,无变化;
提升度<1,下降数字化转型网www.szhzxw.cn
频繁项集
项集:可以是单个商品,也可以是商品组合;
频繁项集是支持度大于最小支持度(Min Support)的项集。
计算过程
从K=1开始,筛选频繁项集;
在结果中,组合K+1项集,再次筛选;
循环1、2步。直到找不到结果为止,K-1项集的结果就是最终结果。
扩展:FP-Growth 算法
Apriori 算法需要多次扫描数据库,性能低下,不适合大数据量。数字化转型网www.szhzxw.cn
FP-growth算法,通过构建 FP 树的数据结构,将数据存储在 FP 树中,只需要在构建 FP 树时扫描数据库两次,后续处理就不需要再访问数据库了。
二、比喻说明
啤酒和尿不湿摆在一起销售
沃尔玛通过数据分析发现,美国有婴儿的家庭中,一般是母亲在家照顾孩子,父亲去超市买尿不湿。
父亲在购买尿不湿时,常常会顺便搭配几瓶啤酒来犒劳自己。
于是,超市尝试推出了将啤酒和尿不湿摆在一起的促销手段。
这个举措居然使尿不湿和啤酒的销量都大幅增加。
声明:本文来自网络,版权归作者所有。文章内容仅代表作者独立观点,不代表数字化转型网立场,转载目的在于传递更多信息。如有侵权,请联系我们。数字化转型网www.szhzxw.cn
数字化转型网数据专题包含哪些内容
数字化转型网数据专题将关注数据治理、数据质量管理、数据架构、主数据管理、数据仓库、元数据管理、数据备份、数据挖掘、数据分析、数据安全、大数据、数据合规、等数据相关全产业链相关环节。
数字化转型网数据专题包含: 数字化转型网(www.szhzxw.cn)
1、数据相关外脑支持:100+数据相关专家、100+数据实践者、1000+相关资料
2、数据研习社:与全球数据相关专家、实践者共同探讨相关问题,推动产业发展!
3、国际认证培训:目前已引进DAMA国际认证CDMP,其他国内外认证也在逐步引进中
4、典型案例参考:与数字化转型网数据要素X研习社社员一起学习典型案例,共探企业数据落地应用

本文由数字化转型网(www.szhzxw.cn)转载而成,来源于 Python大数据分析;编辑/翻译:数字化转型网Jack。

