1. 首页
  2. 大数据
  3. spark
  4. spark2.4.0binhadoop2.7.tgz.zip

spark2.4.0binhadoop2.7.tgz.zip

上传者: 2020-06-11 13:53:02上传 ZIP文件 217.38MB 热度 19次
ApacheSpark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比HadoopMapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。[1]Spark允许用户将数据加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。
用户评论