1. 首页
  2. 数据库
  3. 其它
  4. Self Attention与Transformer

Self Attention与Transformer

上传者: 2021-01-16 19:41:57上传 PDF文件 2.09MB 热度 19次
1.由来 在Transformer之前,做翻译的时候,一般用基于RNN的Encoder-Decoder模型。从X翻译到Y。 但是这种方式是基于RNN模型,存在两个问题。 一是RNN存在梯度消失的问题。(LSTM/GRU只是缓解这个问题) 二是RNN 有时间上的方向性,不能用于并行操作。Transformer 摆脱了RNN这种问题。 2.Transformer 的整体框架 输入的x1,x2x_{1},x_{2}x1​,x2​,共同经过Self-attention机制后,在Self-attention中实现了信息的交互,分别得到了z1,z2z_{1},z_{2}z1​,z2​,将z1,z2
用户评论