charsplitrs:改进了CharSplit的Rust实现 源码
字符 改进了Don Tuggener的Rust实现,以拆分德国化合物。到目前为止,尚无培训代码。 我喜欢该算法的优雅和简单性,并发现它与简单的字典查找(例如,通过Hunspell)结合使用时,在实践中效果很好。 用法 在您的Cargo.toml添加依赖Cargo.toml 。 [ dependencies ] charsplitrs = { version = " 0.2 " , path = " /path/to/charsplitrs " } 阅读您的ngram概率(或原始软件包中包含的概率,请参阅data/ngram_probs.json ),然后开始拆分。 use charsplitrs :: CharSplitter; let splitter = CharSplitter :: new ( "data/ngram_probs.json" ). unwrap ();
用户评论