论文研究 基于任务合并的粮食大数据处理数据清理方法的改进
数据质量对谷物大数据的应用产生了重要影响,因此数据清理是一项必要而重要的工作。在MapReduce框架中,并行技术通常用于以高可伸缩性模式执行数据清理,但是由于缺乏有效的设计,因此在数据清理过程中存在大量计算冗余,从而导致性能降低。在这项研究中,我们发现某些任务通常在相同的输入文件上执行多次,或者在数据清理过程中需要相同的操作结果。针对此问题,我们提出了一种基于任务合并的新优化技术。通过在同一输入文件上合并简单或冗余计算,可以大大减少MapReduce中循环计算的数量。实验表明,通过这种方式,可以显着减少整个系统的运行时间,这证明了数据清理过程得到了优化。在本文中,我们优化了数据清
用户评论