1. 首页
  2. 数据库
  3. 其它
  4. scc411 project:Hadoop项目的Python代码 源码

scc411 project:Hadoop项目的Python代码 源码

上传者: 2021-04-06 06:38:13上传 ZIP文件 11.5KB 热度 3次
SCC411大学项目 用于数据预处理和分析的Python代码 重现已清理,合并的数据集的步骤 创建文件夹“ Google-Data-411”和“预处理” 将所有群集跟踪数据集放置在“ Google-Data-411”中 将'pre-processing.ipynb'放置在'Pre-processing'文件夹中 运行“ pre-processing.ipynb”中的所有代码块 可以在“预处理”文件夹中的.csv文件中找到经过清洁,预处理的数据 还向存在taskIndex和jobID的数据集添加一个processID列(表示正在运行的唯一软件) Cleaner.py 适当地预处理文件(作业事件,任务事件,任务使用情况,机器事件) 用法示例“ python3 Cleaner.py --jobevents jobfile.csv”或“ python Cleaner.py --taskeve
用户评论