1. 首页
  2. 数据库
  3. 其它
  4. pytorch_chinese_lm_pretrain:pytorch中文语言模型预训练 源码

pytorch_chinese_lm_pretrain:pytorch中文语言模型预训练 源码

上传者: 2021-02-21 02:50:56上传 ZIP文件 28.83KB 热度 27次
基于pytorch的中文语言模型预训练 ACL2020最佳论文有一篇论文提名奖,《不要停止预训练:使语言模型适应领域和任务》。本文涉及很多语言模型预训练的实验,系统的分析了语言模型预训练对子任务的效果提升情况。有几个主要方面: 在目标领域的数据集上继续预训练(DAPT)可以提高效果;目标领域的语料与RoBERTa的原始预训练语料越不相关,DAPT效果则提升更明显。 在具体任务的数据集上继续预训练(TAPT)可以十分“廉价”地提升效果。 结合两者(先进行DAPT,再进行TAPT)可以进一步提升效果。 如果能获取更多的,任务相关的无标注数据继续预训练(Curated-TAPT),效果则最佳。 如果
下载地址
用户评论