Spark学习RDD编码
RDD:弹性分布式数据集(ResilientDistributedDataset),是Spark对数据的核心抽象。RDD其实是分布式的元素集合。当Spark对数据操作和转换时,会自动将RDD中的数据分发到集群,并将操作并行化执行。
Spark中的RDD是一个不可变的分布式对象集合。每个RDD都倍分为多个分区,这些分区运行在集群中的不同节点。RDD可以包含Python、Java、Scala中任意类型的对象,甚至可以包含用户自定义对象,本文主要通过Java实现相关示例。
Spark程序或shell会话工作流程
1.从外部数据创建出输入RDD;
2.使用诸如filter()
用户评论