《动手学深度学习Pytorch版》Task4 机器翻译及相关技术;注意力机制与Seq2seq模型;Transformer
机器翻译及相关技术 Task2中的循环神经网络部分,有实现预测歌词的功能。在那个任务中,训练数据的输入输出长度是固定的,而在机器翻译中,输出的长度是不固定的,所以不能直接用RNN来处理这种任务。 Encoder-Decoder框架是常用于机器翻译,对话系统这类场景的框架。 需要注意的是,在训练过程中Decoder的输入是真实的label,而预测时,输入是上一个ceil的预测值 机器翻译解码 通常用beam search。beam search是一种贪心算法,不是全局最优解。 注意力机制 在“编码器—解码器(seq2seq)”一节里,解码器在各个时间步依赖相同的背景变量(context ve
用户评论