YouTokenToMe:无监督的文本标记器专注于计算效率 源码
YouTokenToMe YouTokenToMe是专注于计算效率的无监督文本令牌生成器。 目前,它实现了快速字节对编码(BPE)[ ]。 在训练和标记化方面,我们的实现要比 , 和。 在某些测试案例中,它快90倍。 查看我们的结果。 主要优势: 多线程训练和令牌化 该算法具有O(N)复杂度,其中N是训练数据的长度 C ++中的高效实现 Python包装器和命令行界面 额外功能: BPE退出(如在) 与原始论文的算法一样,我们也没有考虑跨越单词边界的标记。 就像在,所有空格符号都由元符号“”(U + 2581)代替。 它允许将标记序列转换回文本,并恢复单词边界。 例如,短语Bla
下载地址
用户评论