大数据spark交流SPARK技术交流
Spark是加州大学伯克利分校AMP实验室Algorithms Machines and People Lab开发通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目8个月后成为Apache顶级项目速度之快足见过人之处Spark以其先进的设计理念迅速成为社区的热门项目围绕着Spark推出了Spark SQL Spark Streaming MLLib和GraphX等组件也就是BDAS伯克利数据分析栈这些组件逐渐形成大数据处理一站式解决平台.RDD全称为Resilient Distributed Datasets是一个容错的并行的数据结构可以让用户显式地将数据存储到磁盘和内存中并能控制数据的分区.同时RDD还提供了一组丰富的操作来操作这些数据.在这些操作中诸如map flatMap filter等转换操作实现了monad模式很好地契合了Scala的集合操作.除此之外RDD还提供了诸如join groupBy reduceByKey等更为方便的操作注意reduceByKey是action而非transforma
下载地址
用户评论