cluster smi:nvidia smi但用于整个GPU集群 源码
集群SMI 与nvidia-smi相同,但用于多台计算机。 运行cluster-smi ,输出应该类似于 使用时可获得其他信息 user@host $ cluster-smi -h Usage of cluster-smi: -n string match node-names with regex for display information (if not specified, all nodes will be shown) (default ".") -p verbose process information -t show time of events 监控模式 该存储库包含两个版本: cluster-smi-local和cluster-smi 。 本地(cluster-smi-local) cluster-smi-local与nvidia-smi相同,但通过-p标志提供更多详细的过程信息: user@host $ cluster-smi-local -p Thu Jan 18 21:44:51 2018 +-------------
下载地址
用户评论
前段时间我们GPU集群出了故障,这个文件帮助我们修复了问题。
比起其它的GPU集群软件,这个使用更便捷。
通过这个文件,我对GPU集群有了更深入的了解。
这个文件对于搭建GPU集群的新手来说非常友好。
这个文件非常实用,我已经把它分享给同事了。