1. 首页
  2. 数据库
  3. 其它
  4. distributed computing pyspark:使用PySpark进行分布式计算 源码

distributed computing pyspark:使用PySpark进行分布式计算 源码

上传者: 2021-05-08 07:15:20上传 ZIP文件 1.96MB 热度 14次
分布式计算-PySpark 该存储库包含有关在Python中使用Spark进行分布式计算的微型项目。 文本分析:PySpark中的逐点相互信息 计算文本文件中出现的所有单词的一个或多个标记的PMI。 图/网络分析:PySpark中的个性化PageRank算法 实现PageRank算法的修改版本,其中参照给定的源节点执行排名。 修改有两个方面: 随机仅跳到源节点 由于节点悬空而造成的质量损失将完全转移到源节点,而不是在整个图形上重新分配 使用Spark数据帧和Spark SQL查询TPCH
用户评论