1. 首页
  2. 考试认证
  3. 其它
  4. Kurumi 基于MIRA算法的高效中文分词工具

Kurumi 基于MIRA算法的高效中文分词工具

上传者: 2024-10-28 00:12:01上传 ZIP文件 5.4KB 热度 9次

Kurumi 是一个基于 MIRA 学习算法的高效中文分词工具,支持简体和繁体中文分词。该工具通过MIRA训练大量特征,实现了快速、准确的分词效果。Gem的名称和repo名称不同,用户需在应用程序的Gemfile中添加以下代码:


gem 'cseg'  

然后执行:


$ bundle  

或直接安装:


$ gem install cseg  

安装时需先设定环境变量。GitHub上删除了字典文件,但用户可从 RubyGems 下载所需内容。测试表明,Kurumi在 seghanbakeoff pku 测试集上表现优异,达到94.43%的精度和92.86%的召回率。

使用示例:


require "cseg"  

Kurumi.segment("屌丝是一种自我讽刺。")  

#=> ["屌丝", "是", "一", "种", "自我", "讽刺"]  

下载地址
用户评论