无监督文本处理工具:神经网络驱动的分词器与去分词器
SentencePiece被设计为一款无监督文本处理工具,旨在为基于神经网络的文本生成系统提供分词和去分词功能。该工具采用了先验确定的词汇量,例如子词单元,如字节对编码(BPE)[Sennrich et al.]和unigram语言模型[Kudo.]。SentencePiece的独特之处在于,它通过直接训练原始句子的方式,扩展了文本处理的可能性。不同于依赖于特定于语言的预处理/后处理,SentencePiece创造了一个端到端的系统,为无监督文本处理提供了新的解决方案。
下载地址
用户评论