基于Storm的在线聚集算法研究与实现
在信息时代的大背景下,对爆炸式增长数据的处理无疑是社会发展的一大障碍,而对数据的聚集操作又是最经常进行的数据操作之一。传统式的聚集操作对于越来越庞大的数据规模越显得捉襟见肘,数据分析的成本不断上升,并逐渐的超出了人们的可接受范围。随着信息产业的不断发展,日后的数据规模还会不断的扩大,使得如何提高数据分析效率显得越来越重要。将数据处理最常用的聚集操作进行优化可大幅减少分析数据的成本。对数据查询结果进行估计和对聚集操作的并行化处理是解决问题的一种途径。根据中心极限定理将估计结果近似认为符合正态分布,根据统计原理对聚集结果进行估计并得出其置信区间,通过在并行流式计算平台Storm上的实现为对聚集操作
用户评论