《动手学——循环神经网络进阶、梯度消失、梯度爆炸以及Kaggle房价预测、过拟合、欠拟合及其解决方案》笔记
《动手学——循环神经网络进阶》笔记 GRU 时间步数较大或者较小时,循环神经网络梯度较容易出现梯度衰减/梯度爆炸。 虽然裁剪梯度可以应对梯度爆炸,但没法解决梯度衰减问题。 所以提出⻔控循环神经网络GRU,来捕捉时间序列中时间步距离较大的依赖关系 RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经网络:捕捉时间序列中时间步距离较大的依赖关系 RNN: Ht=φ(XtWxh+Ht−1Whh+bh) GRU: Rt=σ(XtWxr+Ht−1Whr+br) Zt=σ(XtWxz+Ht−1Whz+bz) Ht=tanh(XtWxh+(Rt⊙Ht−1)Whh+bh) Ht=Zt⊙Ht−1
下载地址
用户评论