1. 首页
  2. 人工智能
  3. 机器学习
  4. 再思考Transformer中的Batch Normalization.pdf

再思考Transformer中的Batch Normalization.pdf

上传者: 2020-05-06 15:08:31上传 PDF文件 671.95KB 热度 29次
自然语言处理(NLP)中神经网络模型的标准归一化方法是层归一化(LN)。这不同于计算机视觉中广泛采用的批量归一化(BN)。LN在NLP中的优先使用主要是由于经验观察,使用BN会导致NLP任务的性能显著下降;然而,对其根本原因的透彻理解并不总是显而易见的。
下载地址
用户评论