subway api data DW Analysis BI 源码
地铁api数据DW分析BI 过程 源数据收集和HDFS加载 在首尔开放数据广场发布和调用与地铁使用相关的数据API密钥 通过Anaconda3构建python 3.8.5环境,打开jupyter笔记本端口,并执行收集代码。 通过Nifi流进行HDFS加载和原始数据维护,构建为Hadoop高可用性(HA)集群 通过Hive转换HDFS中加载的原始数据并访问查询语句 将数据加载到HDFS中后,Nifi会检测到该数据并执行Hive create table语句。 使用指定的数据加载路径创建Hive外部表,并自动将数据制成表格。 Zeppelin在构建Spark Cluster并与Hive链接后开始工作 火花簇在已构建的Hadoop簇的纱线上运行。 使spark可以通过hive2节俭服务器读取和写入hive表。 与Zeppelin一起执行spark(scala)代码,通过sparkSQL
用户评论