注意力机制和Seq2seq模型
Attention Mechanism 注意力机制借鉴了人类的注意力思维方式,以获得需要重点关注的目标区域 在 编码器—解码器(seq2seq) 中,解码器在各个时间步依赖相同的背景变量(context vector)来获取输入序列信息。解码器输入的语境向量(context vector)不同,每个位置都会计算各自的 attention 输出。 当编码器为循环神经网络时,背景变量来自它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。 然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望
用户评论