浪潮高性能计算集群用户指南
浪潮高性能计算集群用户指南
本指南帮助用户快速掌握浪潮高性能计算集群的使用方法和相关知识。
1. 集群架构
浪潮高性能计算集群是一个自动化、无状态化、CMDB 化、标准化和服务化的 AI 驱动的集群。该集群包含:
- 1 个管理登录节点
- 28 个计算节点,分为以下分区:
- 15 个瘦计算节点 (CPU 分区)
- 9 个 GPU 节点 (GPU 分区)
- 4 个胖节点 (Fat 分区)
2. Slurm 调度系统
2.1 简介
Slurm 是一个开源的作业调度系统,用于管理高性能计算集群上的作业。
2.2 常用命令
| 命令 | 功能 |
| :----- | :------- |
| sbatch | 提交作业 |
| squeue | 查看作业状态 |
| scancel | 删除作业 |
3. 使用前提
使用该集群需要具备以下知识:
- Linux 操作系统基础知识
- 科研软件使用经验
- HPC 集群调度系统基本了解
4. 使用步骤
- 联系管理员开通个人账号
- 通过 xshell、putty 等终端工具登录集群 (基于 CentOS 系统)
- 上传文件
- 查看软件安装路径
- 编写 Slurm 作业脚本 (参考 /home/sourcecode/slurm_sample/ 目录下的模板文件)
- 使用 sbatch 命令提交作业
- 使用 squeue 命令查看作业状态
- 使用 scancel 命令删除作业
5. Slurm 脚本作业
Slurm 脚本是描述作业执行参数和环境变量的文件。
6. 常见问题
本指南还提供了一些常见问题的解答,帮助用户快速解决使用过程中可能遇到的问题。
下载地址
用户评论