【人工智能学习】【十三】注意力机制与Seq2Seq模型
问题来源 Encoder-Decoder模型可以根据Encoder产生的信息ccc来作为Decoder的input来进行机器翻译,ccc是通过Encoder计算出来的,包含了被翻译内容的所有信息。但是通常某个词的翻译只和被翻译内容的一部分信息有关,比如“我爱做饭。”,翻译成”I love cooking.”,cooking的翻译只和”做饭”有关。还有其他的例子,比如某个词的翻译依赖于前面某些信息,让机器做一个阅读理解题之类的。对于短句来讲,Attention的有点不明显,但如果句子比较长,语义编码完全依赖于一个ccc向量会丢失很多信息,这也是为什么会有Attention机制的原因。 Atten
用户评论