Data Pipeline ETL with Airflow 源码
ETL数据管道来处理StreetEasy数据 作者:Raviteja Kurva 项目简介: 在线房地产公司有兴趣了解user enagagement通过分析用户的搜索模式,以发送电子邮件的目标与有效的搜索用户。 有效搜索被称为搜索元数据包含已enabled:true的搜索enabled:true ,点击次数至少3 。 用户搜索历史记录和相关数据的每日快照将保存到S3。 每个文件代表一个日期,如文件名inferred_users.20180330.csv.gz 。 每个文件中的每一行代表一个唯一的用户,由id列标识。 有关每个用户的搜索和参与度的信息存储在searches列中。 一个示例如下所示: 数据描述:从2018-01-20到2018-03-30的每一天,源数据驻留在S3 s3://中,如下所示: s3:// / i
下载地址
用户评论