1. 首页
  2. 人工智能
  3. 深度学习
  4. ElasticDL:基于TensorFlow 2.0的原生深度学习框架构建在Kubernetes上

ElasticDL:基于TensorFlow 2.0的原生深度学习框架构建在Kubernetes上

上传者: 2023-07-28 22:30:46上传 RAR文件 5.03MB 热度 12次

Kubernetes上启动分布式TensorFlow作业的一种常用方式是使用Kubeflow,这是一个基于TensorFlow 1.x的插件。Kubeflow通过协调和分配进程,确保每个作业中的所有进程互相知道对方的IP地址和端口。这对于TensorFlow的ps-based distribution方式是必需的。在TensorFlow 1.x中,一个作业中的所有进程执行TensorFlow 1.x runtime程序,通过互相通信和协调,形成一个分布式runtime来执行深度学习计算图。随着分布式训练的开始,TensorFlow runtime将计算图拆分为多个子图,每个进程执行一个子图。如果任何一个进程失败,整个大图的执行也会失败。

用户评论