RDD manipulations by implementing sketching algorithms 源码
大规模数据处理:项目2 入门 如果您要查找有关Git,模板存储库或设置本地/远程环境的信息,请前往 。 Spark中的弹性分布式数据集 该项目将通过实施到目前为止课程中介绍的一些草绘算法,使您熟悉RDD操作。 该程序的框架已为您提供,该框架由5个用于计算F0或F2的函数组成:BJKST,潮标,拔河,精确F0和精确F2算法。 潮汐标记和确切的F0功能已提供给您参考。 相关资料 您可以在找到包含2014to2017.csv的TAR文件。 下载并展开TAR文件以进行本地处理。 要在云中进行处理,请参考在创建存储桶的步骤并上传2014to2017.csv 。 2014to2017.csv包含2014年至2017年在纽约市发行的停车罚单记录。您会看到该数据已清除,因此仅保留车牌信息。 请记住,在这段时间内,一辆汽车可以收到多张票,因此会出现在多个记录中。 提示:在实现这些功能时,将100条左右
用户评论