1. 首页
  2. 数据库
  3. 其它
  4. corpora tools:语料库工具 源码

corpora tools:语料库工具 源码

上传者: 2021-04-26 13:20:50上传 ZIP文件 92.37KB 热度 9次
语料库工具 分词器,清理器,分析器,模糊匹配器,TfIdf,Eval,POS-tagger 令牌器(OpenNMT): pip install pyonmttok echo "Hello World!" | onmt-tokenize-text --tokenizer OpenNMTTokenizer --tokenizer_config tokconfig Hello World ■! tokconfig指示标记化选项。 前任: mode: conservative joiner_annotate: true 要建立词汇表,请使用: onmt-build-vocab 或者 git clone https://github.com/OpenNMT/Tokenizer.git cd Tokenizer mkdir build cd build cmake -DCMAKE_BUILD_T
用户评论