1. 首页
  2. 数据库
  3. 其它
  4. Spark Streaming流式数据处理

Spark Streaming流式数据处理

上传者: 2021-02-01 01:30:00上传 PDF文件 742.25KB 热度 19次
目前为止,已经讨论了机器学习和批处理模式的数据挖掘。现在审视持续处理流数据,实时检测其中的事实和模式,好像从湖泊来到了河流。先研究一下不断改变的动态环境带来的挑战,在列出流处理应用的先决条件(如,与Twitter的TCPSockets)之后,结合Spark,KafkaandFlume把数据放入一个低延迟,高吞吐量,可缩放的处理流水线。要点如下:按照惯例,先看一下最初的数据密集型应用架构,指明我们所感兴趣的SparkStreaming模块的所处位置.下图着重指明了整体架构中的SparkStreaming模块,SparkSQL和SparkMLlib:数据流可以来自
用户评论