机器翻译注意力机制seq2seq模型
机器翻译 数据预处理(小罗同学总结) 编码——解码 seq2seq模型 读取数据,处理数据中的编码问题,并将无效的字符串删除 分词,分词的目的就是将字符串转换成单词组成的列表。目前有很多现成的分词工具可以直接使用,也可以直接按照空格进行分词(不推荐,因为分词不是很准确) 建立词典,将单词组成的列表编程单词id组成的列表,这里会得到如下几样东西 去重后词典,及其中单词对应的索引列表 还可以得到给定索引找到其对应的单词的列表,以及给定单词得到对应索引的字典。 原始语料所有词对应的词典索引的列表 对数据进行padding操作。因为机器翻译模型本质上是一个固定输入长度的Seq2Sqe模型,所以
用户评论