1. 首页
  2. 数据库
  3. 其它
  4. Task02 循环神经网络基础

Task02 循环神经网络基础

上传者: 2021-02-01 13:34:39上传 PDF文件 94.21KB 热度 10次
循环神经网络 本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。 •裁剪梯度 循环神经网络中较容易出现梯度衰减或梯度爆炸,这会导致网络几乎无法训练。裁剪梯度(clip gradient)是一种应对梯度爆炸的方法。假设我们把所有模型参数的梯度拼接成一个向量 g ,并设裁剪的阈值是 θ 。裁剪后的梯度 的 L2 范数不超过 θ 。 •困惑度 我们通常使用困惑度(perplexity)来评价语言模型的好坏。回忆一下“softmax回归”一节中交叉熵损失函数的定义。困惑度是对交叉熵损失函数做指数运算后得到的值。特别地, :black_small_square:最佳情况下,模型总是
下载地址
用户评论