Spark的架构概述(章节一)
Spark的架构概述(章节一) 背景介绍 Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于DAG 任务调度(有向无环计算),可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给集群计算节点处理。 mapreduce计算分为两步,map阶段和reduce阶段,如果两步处理不了结果,则需要再次进行mapreduce计算,反复从磁盘上读写数据,从而降低效率。而spark是基于内存的计算,每次计算分为若干个阶段,从磁盘中读取一次数据后,直接在内
用户评论