Udacity Data Engineering datawarehouse with aws redshift:Udacity Data Engineerin
带有AWS Redshift的数据仓库 该存储库用于Udacity的第三个数据工程纳米学位项目。 该项目通过和Amazon Redshift实现数据仓库模型: 了解要解决的问题 对数据库和管道模型进行建模 创建数据库架构 用Python开发ETL 问题理解 为特定分析重点的星型模式定义事实和维度表,并编写ETL管道,该管道使用Python和SQL将数据从两个本地目录中的文件传输到Postgres中的这些表中。 任务是创建数据库架构,并将数据上载到PostgreSQL数据库中,并实现ETL管道以进行此分析。 资料说明 该项目使用“,该是免费提供的音频功能和元数据的集合,包含一百万条当代流行音乐曲目(300 GB)。 此数据开放供探索和研究,并且对于该项目,将仅使用来自歌曲数据库的样本和json格式的艺术家信息。 歌曲数据集: Json文件位于/ data / song_data目录下。
用户评论