FSMBUS :一种基于 Spark 的大规模频繁子图挖掘算法
随着社交网络用户数的快速增加 , 大规模单图上频繁子图挖掘的需求越来越强烈 .单机算法对大规模图的运行效率较低 , 难以支撑支持度较低的频繁子图的挖掘 ; 现有的分布式环境下单图的频繁子图挖掘算法不支持子图增长模式的挖掘 , 它们所使用的 Hadoop 框架也不适合运行迭代式算法 . 提出了一种基于 Spark 的大规模单图频繁子图挖掘算法 FSMBUS , 通过次优树构建并行计算的候选子图 ,在给定最小支持度时挖掘出所有的频繁子图 , 并利用非频繁检测和搜索顺序选择实现优化 , 还设计了一种名为 Sorted‐Greedy 的轻量级数据划分方法 . 实验结果表明 ,FSMBUS 的效率要比现有单图上最新的算法快一个数量级 ,并支持更低最小支持度阈值以及更大规模图数据的挖掘 ,同时 FSMBUS 比其Hadoop 的移植版要快 2 ~ 4 倍 .
用户评论