已迁移到我新博客,阅读体验更佳apriori && fpgrowth:频繁模式与关联规则挖掘 详细代码我放在github上:click me 一.实验说明 1.1 任务描述 1.2 数据集说明 GroceryStore数据集 This data set contains transaction records of a grocery store in a month. Each line is a transaction, where the purchased items line i
在关联规则挖掘领域最经典的算法法是Apriori,其致命的缺点是需要多次扫描事务数据库.于是人们提出了各种裁剪(prune)数据集的方法以减少I/O开支 支持度和置信度 严格地说Apriori和FP-Tree都是寻找频繁项集的算法,频繁项集就是所谓的“支持度”比较高的项集,下面解释一下支持度和置信度的概念. 设事务数据库为: A E F G A F G A B E F G E F G 则{A,F,G}的支持度数为3,支持度为3/4. {F,G}的支持度数为4,支持度为4/4. {A}的支持度数为