1. 首页
  2. 数据库
  3. 其它
  4. Spark:比Hadoop更强大的分布式数据计算项目

Spark:比Hadoop更强大的分布式数据计算项目

上传者: 2021-02-23 19:31:53上传 PDF文件 407.88KB 热度 7次
Spark是一个由加州大学伯克利分校(UC BerkeleyAMP)开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributeddatasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法。Spark使用Scala开发,使用Mesos作为底层的调度框架,可以和hadoop和Ec2紧密集成,直接读取hdfs或S3的文件进行计算并把结果写回hdfs或
下载地址
用户评论