动手学深度学习_4
动手学深度学习_41循环神经网络1.1 GRU1.2 LSTM1.3 深层RNN深度循环神经网络1.4 双向RNN双向循环神经网络2 机器翻译3 注意力机制与Seq2seq模型3.1注意力机制3.2 注意力机制框架3.3 点积注意力3.4 引入注意力机制的Seq2seq模型4 Transformer4.1多头注意力层4.2 位置编码4.3 解码器 1循环神经网络 1.1 GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) Ht=φ(XtWxh+Ht−1Whh+bh) H_{t} = φ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h}) Ht=φ(Xt
用户评论