1. 首页
  2. 数据库
  3. 其它
  4. 数据处理管道:使用DockerSparkKafka和Cassandra进行实时数据处理管道和可视化 源码

数据处理管道:使用DockerSparkKafka和Cassandra进行实时数据处理管道和可视化 源码

上传者: 2021-03-17 04:54:43上传 ZIP文件 533.07KB 热度 24次
数据处理管道 描述 只需5个步骤,即可使用Docker Machine和Compose,Kafka,Cassandra和Spark构建功能强大的实时数据处理管道和可视化解决方案。 参见下面的项目架构: 到底发生了什么事? 我们连接到twitter流API( ),并开始基于关键字列表侦听事件,这些事件直接转发到Kafka(不解析)。 在中间,有一个spark作业,收集这些事件,将它们转换为Spark SQL上下文( ),该上下文过滤kafka消息并仅提取感兴趣的字段,在这种情况下为: user.location,文本和user.profile_image_url ,一旦有了,我们就会使用
下载地址
用户评论