DSC字数与地图减少实验室NYC DS 060319 源码
MapReduce的字数统计-实验 介绍 现在,我们已经了解了Spark中的键映射和reduce运算符,并且还知道何时使用转换和动作运算符,我们可以回顾一下本节前面介绍的字数统计问题。 在本实验中,我们将在Spark环境中阅读一个文本语料库,执行字数统计,并尝试基本的NLP思想以更好地掌握MapReduce的性能。 目标 在本实验中,您将: 将map(func)转换应用于不同分区中RDD的所有元素上的给定函数 对RDD的所有元素应用地图变换 比较RDD中转换和动作之间的区别 使用collect(),count()和take()操作触发火花转换 使用过滤器选择RDD中符合某些规范的数据 使用S
用户评论