舆情去重算法的研究与比较
近年来,舆情信息在大数据服务中广泛被加工使用,但转载、复制等操作使得采集的舆情信息重复量庞大,给后期的加工带来困难。在这种情况下,针对舆情数据开展去重研究的却相对较少。文中针对舆情去重不可避免但缺乏理论指导的问题,通过研究SimHash、MinHash、Jaccard等经典去重算法,结合TF、TF-IDF、特征码等不同特征选择和3 000舆情样本进行实验,最终发现MinHash+特征码运行时间最短;Jaccard的漏判数最少,召回率可达90%以上;MinHash算法的误判数最少,去重精度可达100%,并且MinHash通过阈值的调整能够获得Jaccard同样的召回率。
用户评论