1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究基于LSTM网络的序列标注中文分词法.pdf

论文研究基于LSTM网络的序列标注中文分词法.pdf

上传者: 2020-07-16 06:47:57上传 PDF文件 1.16MB 热度 27次
当前主流的中文分词方法是基于字标注的传统机器学习方法,但传统机器学习方法需要人为地从中文文本中配置并提取特征,存在词库维度高且利用CPU训练模型时间长的缺点。针对以上问题进行了研究,提出基于LSTM(long short-term memory)网络模型的改进方法,采用不同词位标注集并加入预先训练的字嵌入向量(character embedding)进行中文分词。在中文分词评测常用的语料上进行实验对比结果表明,基于LSTM网络模型的方法能得到比当前传统机器学习方法更好的性能;采用六词位标注并加入预先训练的字嵌入向量能够取得相对最好的分词性能;而且利用GPU可以大大缩短深度神经网络模型的训练时间
下载地址
用户评论