Data Pipeline Airflow 源码
数据管道气流 项目描述 一家音乐流媒体公司Sparkify决定是时候向其数据仓库ETL管道引入更多的自动化和监视功能,并得出结论,达到此目的的最佳工具是Apache Airflow。 他们已决定将您带入项目,并期望您创建可动态使用可重用任务构建,可监控并允许轻松回填的高级数据管道。 他们还指出,在数据仓库顶部执行分析并希望在执行ETL步骤以捕获数据集中的任何差异之后针对其数据集运行测试时,数据质量起着重要作用。 源数据位于S3中,需要在Amazon Redshift中的Sparkify数据仓库中进行处理。 源数据集由JSON日志(有关应用程序中的用户活动)和有关用户收听的歌曲的JSON元数据组成。 资料说明 歌曲数据第一个数据集是“百万歌曲”数据集中的真实数据的子集。 每个文件均为JSON格式,并包含有关歌曲和该歌曲的歌手的元数据。 这些文件按每首歌曲的曲目ID的前三个字母进行分区。
下载地址
用户评论