1. 首页
  2. 数据库
  3. 其它
  4. 芝加哥出租车行程分析:使用AWS EMRSparkPySparkZeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集 源码

芝加哥出租车行程分析:使用AWS EMRSparkPySparkZeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集 源码

上传者: 2021-02-07 08:08:03上传 ZIP文件 940.73KB 热度 32次
总览 使用AWS EMR,Spark,PySpark,Zeppelin和Airbnb的Superset分析芝加哥市区出租车行程数据集 芝加哥市出租车旅行数据集 步骤1:数据整形/合并 分析原始数据 执行基本转换 重命名列 数据类型变更 添加新列 筛选行 筛选栏 执行基本数据处理并将Spark DataFrame保存为Parquet格式。 以下是所有转换后的Spark DataFrame模式。 root | -- TripID: string (nullable = true) | -- TaxiID: string (nullable = true) | -- TripStartTS:
用户评论