taxi poc aws:适用于创新架构师的AWS分配 源码
滑行poc-aws AWS Assignment for Innovation Architect:从TLC检索数据并为不同用户生成插图。 这个项目是什么? 如前所述,这是一个用于AWS采访的项目。 因此,所有事物都基于aws。 数据预处理 脚步: 创建一个名为taxi-poc格式的s3存储桶,并创建一个EMR集群。 将format_and_split_csv.py添加到集群的步骤中,直到完成。 现在,您将在s3上以的士格式设置存储桶中获得漂亮的数据。 额外的: 从2015年到2018年,开放数据中的数据格式不一致。 因此,我们必须探索数据格式: 运行scan_data_types.py以获取所有标头类型。 还有一个问题:某些数据没有取放地点纬度和经度。 他们只有位置ID。 运行scan_location_latlng.py以从Google API获取位置的经纬度。 数
用户评论