盘古分词源代码
盘古分词是一个基于.netframework的中英文分词组件。主要功能
中文未登录词识别
盘古分词可以对一些不在字典中的未登录词自动识别
词频优先
盘古分词可以根据词频来解决分词的歧义问题
多元分词
盘古分词提供多重输出解决分词粒度和分词精度权衡的问题
中文人名识别
输入:“张三说的确实在理”
分词结果:张三/说/的/确实/在理/
输入“李三买了一张三角桌子”
分词结果:李三/买/了/一张/三角/桌子/
强制一元分词
输入“张三说的确实在理”
分词结果:张(0,1)/张三(0,5)/三说的(1,1)/三(1,1)/说(2,5)/的(3,5)/确(4,1)/确实(4,5)/实(5
下载地址
用户评论
有用,感谢分享!
不支持lucene.net3.0
非常不错的资源,为解决分词问题可以省不少的开发时间了。
可惜啊,不支持lucene.net3.0
找了好久,找到的这个,不错