神经机器翻译技术、Attention与Seq2Seq、Transformer
神经机器翻译技术NMT 主要特点:输出是单词序列而不是单个单词,并且可能输出序列的长度与输入序列的长度不同 机器翻译的实现过程 1. 数据预处理 乱码处理 我们通常所用的空格是 \x20 ,是在标准ASCII可见字符 0x20~0x7e 范围内。 而 \xa0 属于 latin1 (ISO/IEC_8859-1)中的扩展字符集字符,代表不间断空白符nbsp(non-breaking space),超出gbk编码范围,是需要去除的特殊字符。 大小写转换 分词 把字符串转换成单词组成的列表list 建立词典 把单词组成的列表,转换成单词id组成的列表,还有词频 源语言和目标语言都需要建立词典 载入
用户评论