动手学深度学习(3.3)——循环神经网络进阶
GRU RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经网络:捕捉时间序列中时间步距离较大的依赖关系 RNN: Ht=φ(XtWxh+Ht−1Whh+bh) H_{t} = φ(X_{t}W_{xh} + H_{t-1}W_{hh} + b_{h}) Ht=φ(XtWxh+Ht−1Whh+bh) GRU: Rt=σ(XtWxr+Ht−1Whr+br)Zt=σ(XtWxz+Ht−1Whz+bz)H~t=tanh(XtWxh+(Rt⊙Ht−1)Whh+bh)Ht=Zt⊙Ht−1+(1−Zt)⊙H~t R_{t} = σ(X_tW_{xr} + H_{t−1}W_
用户评论