Spark RDD详解
常见疑问 Spark与Apache Hadoop有何关系? Spark是与Hadoop数据兼容的快速通用处理引擎。它可以通过YARN或Spark的Standalone在Hadoop集群中运行,并且可以处理HDFS、Hbase、Cassandra、Hive和任何Hadoop InputFormat中的数据。它旨在执行批处理(类似于MapReduce)和提供新的工作特性,例如流计算,SparkSQL交互式查询和Machine Learning机器学习等。 我的数据需要容纳在内存中才能使用Spark吗? 不会。Spark的operators会在不适合内存的情况下将数据溢出到磁盘上,从而使其可以在任何
用户评论