1. 首页
  2. 编程语言
  3. 其他
  4. 使用Spark进行实时流计算的方法

使用Spark进行实时流计算的方法

上传者: 2021-07-10 13:26:04上传 PDF文件 208.16 KB 热度 38次

Spark Streaming VS Structured StreamingSpark Streaming是Spark最初的流处理框架,使用了微批的形式来进行流处理。Processing Time 而不是 Event Time首先解释一下,Processing Time 是数据到达 Spark 被处理的时间,而 Event Time 是数据自带的属性,一般表示数据产生于数据源的时间。如果我们要统计某个时间段的一些数据统计,毫无疑问应该使用 Event Time,但是因为 Spark Streaming 的数据切割是基于 Processing Time,这样就导致使用 Event Time 特别的困难。这样导致一个问题是,DAG 可能会因为开发者的水平参差不齐而导致执行效率上的天壤之别。这也是很多基础系统强调 Declarative 的一个原因。DStream 尽管是对 RDD 的封装,但是我们要将 DStream 代码完全转换成 RDD 还是有一点工作量的,更何况现在 Spark 的批处理都用 DataSet/DataFrame API 了。相对的,来看下Structured Streaming优势:

用户评论