1. 首页
  2. 数据库
  3. 其它
  4. 用ApacheSpark进行大数据处理

用ApacheSpark进行大数据处理

上传者: 2021-02-01 20:51:41上传 PDF文件 199.76KB 热度 16次
ApacheSpark是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。与Hadoop和Storm等其他大数据和MapReduce技术相比,Spark有如下优势。首先,Spark为我们提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍,甚至能够将应用在磁盘上的运行速度提升10倍。Spark让开发者可以快速的用Java、Scala
用户评论