gpt neox:基于DeepSpeed库的GPU上类似于GPT 3的模型并行模型的实现。 设计成能够训练数千亿甚至更大参数的模型 源码
GPT-NeoX 该存储库记录了正在进行的用于训练大规模GPU语言模型的工作。 我们当前的框架基于NVIDIA的,并通过技术以及一些新颖的优化功能得到了增强。 如果您正在寻找我们的TPU代码库,请参阅 。 GPT-NeoX正在积极开发中,而且边缘还很粗糙。 GPT-NeoX是一种复杂的野兽,需要时间和患者才能在任何特定环境下工作。 入门 我们的代码库依赖 ,它是对库的自定义修改。 我们强烈建议您在从requirements.txt安装之前使用Anaconda,虚拟机或其他形式的环境隔离。 否则,可能导致依赖DeepSpeed的其他存储库损坏。 数据集 一旦安装了requirements.txt ,下一步就是获取和处理数据。 出于演示目的,我们托管了Enron电子邮件语料库,并可供下载。 运行python prepare_data.py将下载并处理数据集以进行语言建模。 要使用您自己的
用户评论