1. 首页
  2. 数据库
  3. 其它
  4. 变形金刚模型并行:在变压器中实现的T5和GPT2的模型并行性 源码

变形金刚模型并行:在变压器中实现的T5和GPT2的模型并行性 源码

上传者: 2021-02-21 07:47:31上传 ZIP文件 6.4MB 热度 8次
适用于GPT2和T5的具有模型并行性的变压器 这是主变压器库上的一个分支,使您可以在多个设备上分配gpt2-xl , t5-3b和t5-11b等超大型模型的关注块,从而使您可以微调大型变压器。 在HuggingFace团队能够将我的更改合并到主库中之前,我将保留此存储库。 通常,大型变压器的性能要比其较小的同类产品好得多。 模型并行性由模型上的两种方法控制,如下所示: from transformers import GPT2LMHead model = GPT2LMHead('gpt2-xl') device_map = {0: [0, 1, 2, 3, 4, 5, 6, 7, 8],
下载地址
用户评论