BERT大火却不懂Transformer?
Transformer由论文《AttentionisAllYouNeed》提出,现在是谷歌云TPU推荐的参考模型。论文相关的Tensorflow的代码可以从GitHub获取,其作为Tensor2Tensor包的一部分。哈佛的NLP团队也实现了一个基于PyTorch的版本,并注释该论文。在本文中,我们将试图把模型简化一点,并逐一介绍里面的核心概念,希望让普通读者也能轻易理解。从宏观的视角开始首先将这个模型看成是一个黑箱操作。在机器翻译中,就是输入一种语言,输出另一种语言。那么拆开这个黑箱,我们可以看到它是由编码组件、解码组件和它们之间的连接组成编码组件部分由一堆编码器(encode
用户评论