-
本文将探讨大数据湖的规划与建设方案。首先介绍了大数据湖的定义和优势,然后提出了一套基于开源框架的推荐...
大小:20.52MB | 2023-06-05 21:38:58 -
Spark是当前最流行的大数据框架之一,但是在处理大规模数据时,可能会出现一些性能瓶颈。本文将会介绍...
大小:1.08MB | 2023-06-05 21:30:14 -
本文将通过对Spark源码的剖析,向读者介绍Spark的工作原理和相关算法。详细说明了Spark是如...
大小:278.75KB | 2023-06-05 21:26:53 -
Spark的checkpoint是一种故障恢复机制,它可以将RDD的中间结果序列化并保存到可靠存储介...
大小:138.72KB | 2023-06-01 21:38:32 -
本文深入探讨了Spark中JDBCRDD源码的实现原理以及自定义JDBCRDD的分区策略,包括如何通...
大小:99.5KB | 2023-05-29 12:46:16 -
分布式数据处理框架Spark中的textFile方法是一种非常重要的构建RDD的工具。本文详细解析了...
大小:122.43KB | 2023-05-29 12:42:39 -
作为两种常用的存储格式,spark-SequenceFile和MapFile在大数据处理中扮演着重要...
大小:208.5KB | 2023-05-29 12:39:19 -
Spark是一个非常优秀的大数据框架,而Hbase作为它的一部分也同样发挥着重要作用。本文将深入解析...
大小:136.02KB | 2023-05-28 20:18:52 -
spark-RDD是Spark的核心组件之一,具有强大的数据处理能力和可伸缩的性能,本文将深入介绍s...
大小:336.88KB | 2023-05-28 20:15:41 -
在使用spark-ExternalShuffleService时,通过合理配置可以显著提升性能。本文...
大小:77.26KB | 2023-05-28 20:10:30