1. 首页
  2. 编程语言
  3. C
  4. 微软DeepSpeed Chat训练完整RLHF流程,轻松实现千亿级大模型

微软DeepSpeed Chat训练完整RLHF流程,轻松实现千亿级大模型

上传者: 2023-06-07 11:33:26上传 ZIP文件 2.25MB 热度 17次

微软开源了DeepSpeed Chat系统框架,让各种规模的ChatGPT模型都唾手可得。此前,由于缺乏端到端的RLHF规模化系统,类ChatGPT模型的训练一直很困难。而DeepSpeed Chat正好弥补了这个缺陷,同时还大大降低了成本。使用DeepSpeed-HE混合引擎,只需花1620美元,就能在2.1天内训练一个OPT-66B模型;如果使用多节点、多GPU系统,花费5120美元仅需1.25小时即可训练一个OPT-13B模型。

用户评论