基于TinyBert的知识蒸馏预训练语言模型演示
这个项目是利用华为的TinyBert进行的调整,简化了数据读取过程,使我们能够更方便地使用自己的数据进行操作。TinyBert的训练过程基于通用的Bert base蒸馏,获得一个通用版本的student model base;然后使用相关任务的数据将Bert进行fine-tune,获得fine-tune的Bert base模型;接下来使用2中获得的模型再次蒸馏,获得fine-tune的student model base。需要注意的是,这一步的student model base要使用1中的通用版本的student model base进行初始化。(包括词向量loss和隐层loss以及attention loss)。然后重复第3步,使用3中获得的student模型初始化student model base。(包括任务预测label loss)。
下载地址
用户评论