实验3
1 Spark RDD 数据源 1.1 并行集合 // 创建 1-5 的列表 val data = Array(1,2,3,4,5) // 从列表创建 RDD val distData = sc.parallelize(data) // 创建切片数为 2 的 RDD val distData2 = sc.parallelize(data,2) // 对 RDD 进行测试操作 // 对集合中的所有元素进行相加,返回结果为 15 distData.reduce((a,b) => a + b) 1.2 外部数据集 // 从 protocols 文件中创建 RDD val distFile = s
用户评论