Deep learning Pytorch 2002 2
过拟合、欠拟合及其解决方案 L2范数惩罚项通过惩罚绝对值较大的参数的方法来应对过拟合的 L2正则化是在目标函数中直接加上一个正则项,直接修改了我们的优化目标。权值衰减是在训练的每一步结束的时候,对网络中的参数值直接裁剪一定的比例,优化目标的式子是不变的。在使用朴素的梯度下降法时二者是同一个东西,因为此时L2正则化的正则项对梯度的影响就是每次使得权值衰减一定的比例。但是在使用一些其他优化方法的时候,就不一样了。比如说使用Adam方法时,每个参数的学习率会随着时间变化。这时如果使用L2正则化,正则项的效果也会随之变化;而如果使用权值衰减,那就与当前的学习率无关了,每次衰减的比例是固定的。L2正则化
用户评论