Udacity Data Engineering datalake with aws spark:Udacity Data Engineering的第4个项目使
带有AWS Spark的数据湖 Udacity Data Engineering的第4个项目,使用AWS Spark服务构建Data Lake。 该项目在spark AWS S3 Bucket和Amazon spark中实现了Data Lake。 了解要解决的问题 资料说明 建模数据湖 项目结构 ETL描述 运行ETL管道 问题理解 为S3上托管的数据湖构建ETL管道。 从S3存储桶中加载数据,使用Aws服务中托管的Spark将数据处理到分析表中,然后再将其加载回S3中。 资料说明 该项目使用“,该是免费提供的音频功能和元数据的集合,包含一百万条当代流行音乐曲目(300 GB)。 此数据开放供探索和研究,并且对于该项目,将仅使用来自歌曲数据库的样本和json格式的艺术家信息。 歌曲数据集: Json文件位于/ data / song_data目录下。 文件格式为: {"num_son
用户评论