阿里云强大计算能力结合Kubeflow,实现深度学习解决方案
Kubernetes是一个开源的容器化应用管理系统,通过它可以简便高效地部署、规划、更新和维护应用程序。在深度学习领域,它成为越来越受欢迎的训练选项,因为它不仅提供了多种机器学习框架的灵活性,还能根据需求扩展计算能力。使用阿里的AiACC或社区的horovod等分布式训练框架,只需要修改少量代码,就能将单机训练任务扩展为分布式训练任务。在Kubernetes上,kubeflow社区的tf-operator支持Tensorflow PS模式,mpi-operator支持horovod的mpi allreduce模式也是常见的使用方式。
下载地址
用户评论