nyc taxi data pipeline:纽约出租车的数据管道历史数据 源码
nyc-taxi-data-pipeline 关于项目 纽约出租车的数据管道历史数据 此存储库提供脚本,用于下载和预处理从纽约市开始的过去三年中数十亿次出租车的数据。原始数据来自纽约市出租车和豪华轿车委员会的 建于 Python 火花 空气流动 入门 先决条件 如果不存在,请下载Docker 指示 执行docker build -t myimage . docker文件所在目录中的命令 执行docker run -d -p 8080:8080 myimage命令⋅⋅⋅此命令构建和包含Airflow的docker映像。安装所有要求之后,您将从http://localhost:8080/访问Airflow用户界面。 在触发dag之前,您可能需要最小化要下载的数据。 ...转到data_pipeline/config.yaml 。您将看到一个名为retention_N_months的参数。此参数
用户评论