Kurumi 基于MIRA算法的高效中文分词工具
Kurumi 是一个基于 MIRA 学习算法的高效中文分词工具,支持简体和繁体中文分词。该工具通过MIRA训练大量特征,实现了快速、准确的分词效果。Gem的名称和repo名称不同,用户需在应用程序的Gemfile中添加以下代码:
gem 'cseg'
然后执行:
$ bundle
或直接安装:
$ gem install cseg
安装时需先设定环境变量。GitHub上删除了字典文件,但用户可从 RubyGems 下载所需内容。测试表明,Kurumi在 seghanbakeoff pku 测试集上表现优异,达到94.43%的精度和92.86%的召回率。
使用示例:
require "cseg"
Kurumi.segment("屌丝是一种自我讽刺。")
#=> ["屌丝", "是", "一", "种", "自我", "讽刺"]
下载地址
用户评论