Transformer:基于attention机制的序列转换模型
Transformer是一种基于attention机制的序列转换模型,相比传统的循环神经网络和卷积神经网络,它使用了更简单的网络架构,完全避免了使用循环和卷积。通过在WMT2014英语-德语的翻译任务上的测试,结果显示Transformer在质量和效率上都表现更好,BLEU评分达到了28.4并成功创造了单模型的SOTA结果,BLEU分数为41.8。Transformer能够适应其他任务,并具有更高的并行性和较短的训练时间。
下载地址
用户评论