1. 首页
  2. 数据库
  3. 其它
  4. TASK04 注意力机制 机器翻译 Transformer

TASK04 注意力机制 机器翻译 Transformer

上传者: 2021-01-16 09:17:54上传 PDF文件 115.77KB 热度 23次
将注意力机制放到这里,以后会用到。 练习题放在最前面: 关于Transformer描述正确的是: 在训练和预测过程中,解码器部分均只需进行一次前向传播。 Transformer 内部的注意力模块均为自注意力模块。 解码器部分在预测过程中需要使用 Attention Mask。 自注意力模块理论上可以捕捉任意距离的依赖关系。 答案解释 选项1:训练过程1次,预测过程要进行句子长度次 选项2:Decoder 部分的第二个注意力层不是自注意力,key-value来自编码器而query来自解码器 选项3:不需要 选项4:正确,因为自注意力会计算句子内任意两个位置的注意力权重 2. 在Transform
用户评论