毕业设计汉语多音字注音研究
毕业设计汉语多音字注音研究准确率计算准确率的方法某个数据集上的准确率该数据集中所有标注正确的多音字数数据集中含有的多音字总数语料处理主要是将语料划分为训练集验证集与测试集并将句子和读音做tokenize建立词典设定batchsize与生成迭代器使数据能送入模型进行训练.在进行处理时使用了torchtext库能方便的对文本进行处理并且支持csvtsv等格式的读取.最终生成的数据集train.csv训练集有29928条短语包含30041个多音字.valid.csv验证集有8723条短语包含12696个多音字.test.csv有8638条短语包含19198个多音字.模型搭建目前想到用两种方法搭建模型.两种方法模型大体一致但在将lstm的输出喂进全连接层时的输入不一样.说明代码中的各种参数并不是最优的参数只是一个示例.按照多音字的读音的分类方法这种方法将训练数据按照其中某个多音字的读音进行分类如训练数据中含有多音字都的句子将分为以下两类句子中都的读音为dū的数据句子中
用户评论