1. 首页
  2. 数据库
  3. 其它
  4. trident lambda splout:一个使用Storm的Trident作为实时层和Splout SQL作为批处理层的“ Lambda体系结构”的玩具示例

trident lambda splout:一个使用Storm的Trident作为实时层和Splout SQL作为批处理层的“ Lambda体系结构”的玩具示例

上传者: 2021-04-27 08:12:27上传 ZIP文件 489.18KB 热度 5次
三叉戟lambda 使用Storm的作为实时层和作为批处理层的一个玩具示例。 问题 我们要实现对按日期分组的tweet中的#标签出现次数进行计数,并将数据作为远程服务提供,例如,能够在网站/移动应用中填充时间轴(例如,让我关注过去10天的标签“加利福尼亚”)。 解决方案的要求是: 它必须扩展(我们要处理数十亿条推文。认为好像我们可以使用Firehouse一样!)。 它必须能够为潜在的大量并发用户请求时间线提供低延迟请求。 使用Hadoop存储推文和简单的Hive查询以按标签和日期进行分组似乎足以计算计数。 但是,我们还想向系统中添加实时信息:我们希望以秒为单位更新今天的标签的实际出现次数。 而且我们需要将Hadoop计数放入一些真正快速的数据存储中,以便能够查询它们。 解决方案 提出的解决方案是使用“ lambda体系结构”并使用实现实时层, 是Storm之上的API,可简化构建
下载地址
用户评论