1. 首页
  2. 数据库
  3. 其它
  4. TinySegmenter.jl:TinySegmenter的Julia版本紧凑的日语令牌生成器 源码

TinySegmenter.jl:TinySegmenter的Julia版本紧凑的日语令牌生成器 源码

上传者: 2021-02-09 03:13:37上传 ZIP文件 209KB 热度 7次
TinySegmenter TinySegmenter.jl是TinySegmenter的Julia版本, 是一种非常紧凑的日语令牌生成器,最初由Taku Kudo先生用JavaScript编写。 用法 using TinySegmenter join ( tokenize ( "私の名前は中野です" ), " | " ) # "私 | の | 名前 | は | 中野 | です" tokenize的返回值是字符串输入的子字符串数组,给出了令牌在文本中的位置。 (子字符串由SubString Julia类型表示。) 基准测试 以下是使用不同语言对大(243kB)日语文本进行标记的TinySe
用户评论