自然语言处理模型后门攻击方案的研究及实践
本研究致力于探讨一种针对预训练自然语言处理模型的后门攻击方案,通过该方案使得从预训练模型迁移的下游模型都携带同一后门,从而对下游模型进行广泛而深入的攻击。为具体展示该方案的影响,我们选择了BERT模型作为实验对象,下游任务包括文本分类(GLUE Benchmark)、命名实体识别(CoNLL-2003)以及问答(SQuAD V2.0)。实验结果表明,预训练模型的后门攻击方案对下游任务具有广泛的威胁性。在对干净的BERT模型进行后门攻击的实验中,我们采用了Mask Language Modeling(MLM,掩码语言建模)任务来嵌入后门。后门训练使用的数据集为WikiText-103,通过在训练过程中对数据样本进行一定比例的投毒,使得模型成功嵌入后门。关于触发器模式的设计和样本投毒的详细流程,请参考backdoor-bert目录。在微调下游模型并评估攻击效果阶段,我们对一个干净的BERT模型和一个嵌入后门的BERT模型进行相同的微调(包括所有超参数和随机数种子的一致性),然后在干净的验证集和带有触发器的验证集上进行测试。需要注意的是,不同的任务有不同的评估指标。
下载地址
用户评论