使用Python Tkinter实现剪刀石头布小游戏功能
第6章管理高性能计算服务器集群前面两章介绍了如何使用R2的编程接口编写面向服务和MPI应用,并介绍了如何使用作业调度系统提交应用作业。本章将把注意力移到计算资源上来,通过实例介绍如何将裸机部署成集群;当应用在集群上运行时,如何有效地管理集群资源使用户应用可以可靠、安全地运行;如何设置调度策略,为在一个共享的环境下的用户提供服务公约;如何发现故障及时纠错使系统尽快恢复正常工作状态;如何从集群使用率历史数据支撑扩容规划的决策。比如,你是否曾想了解如何将一个高性能计算集群从零开始部署并管理?点击这里获取更多细节。也许你会惊讶地发现,集群部署并不如想象中那样复杂!
6.1简介
集群管理的周期如图6-1所示。新的机器拆封,固定安装在机架上后,管理员需要部署这些新机器,建立集群,创建后要对集群进行配置。在集群投入生产后,管理员需要监控集群的计算节点、头节点和代理节点,当发现故障时,需要尽快诊断问题,排除故障。想知道更多关于Hadoop集群作业调度的内容吗?点击此处了解相关算法研究。管理员需要周期性地对集群使用情况心中有数,和用户一同协同做出扩容决策。如此,周而复始。本章介绍管理员生命周期中常见的应用场景,并介绍如何使用HPC Pack R2来完成场景中的任务。还在犹豫什么?立刻查看高性能集群计算系统的构建吧,也许你会发现更高效的管理方式。
集群管理并非一蹴而就,想了解如何通过实例掌握其中的奥秘吗?这些资源会让你受益匪浅:如何在集群上有效运行应用?点击这里了解更多吧!故障诊断是否让你头疼?了解云计算相关集群资源管理系统知识或许能给你一些启发。管理员的职责不仅限于监控和管理,扩容规划也是一项关键任务。想知道如何从历史数据中获得决策支持?点击这里获取详尽的学习资料。
不要让高性能计算集群的管理难倒你,丰富的资源等你来探索!