大数据量下的Apriori改进算法及在weka平台的实现
对于数据库中数据量较大的情况,Apriori算法在搜索频繁项集和挖掘强关联规则的过程中,会导致算法扫描数据库和挖掘频繁项集过程中系统IO压力过大,算法性能较低等不足。文章提出了一种改进的快速Apriori算法,通过一次全局扫描来验证从样本中发现的模式,来压缩迭代次数。如果一个k-项集的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的。
下载地址
用户评论
很有参考价值,推荐下载
这个论文的算法思想还是不错的,但是在实际使用中抽样的算法会使结果出现误差。
不错的论文,正好可以学习apriori怎么改进以适应大数据量的情况