动手学深度学习Pytorch版本学习笔记 Task3
1.过拟合、欠拟合及其解决方案 过拟合:模型无法得到较低的训练误差,我们将这一现象称作欠拟合(underfitting); 欠拟合:模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。 在实践中,我们要尽可能同时应对欠拟合和过拟合。 解决过拟合的方法:权重衰减(L2 范数正则化)和丢弃法 2.梯度消失和梯度爆炸 a.梯度消失和梯度爆炸 假设一个层数为LL的多层感知机的第ll层H(l)H(l)的权重参数为W(l)W(l),输出层H(L)H(L)的权重参数为W(L)W(L)。为了便于讨论,不考虑偏差参数,且设所有隐藏层的激活函数为恒等映射(identity
用户评论