1. 首页
  2. 编程语言
  3. C++ 
  4. 无监督文本处理工具:神经网络驱动的分词器与去分词器

无监督文本处理工具:神经网络驱动的分词器与去分词器

上传者: 2023-12-12 12:32:55上传 ZIP文件 11.54MB 热度 59次

SentencePiece被设计为一款无监督文本处理工具,旨在为基于神经网络的文本生成系统提供分词和去分词功能。该工具采用了先验确定的词汇量,例如子词单元,如字节对编码(BPE)[Sennrich et al.]和unigram语言模型[Kudo.]。SentencePiece的独特之处在于,它通过直接训练原始句子的方式,扩展了文本处理的可能性。不同于依赖于特定于语言的预处理/后处理,SentencePiece创造了一个端到端的系统,为无监督文本处理提供了新的解决方案。

下载地址
用户评论