中文高效分词和去停用词特殊符号java源码eclipse 工程
整合 使用ICTCLAS2013(NlPIR) x64 的中文分词,分词的速度和效果都不错。然后就是对文本进行的去停用词以及特殊符号(哈工大停用词库)的去除,这些特殊符号还有标点符号,以及文本中夹杂的数字和字母会对分词的效果产生影响。eclipse GBK 编码
下载地址
用户评论
不太会用啊
这个怎么用啊 有没有人能告诉一下啊
分词所用库初始化失败,在调试
@qq_221701832 怎么更新data包?
可以去掉大部分常见的停用词
刚下载来就运行试试,立即报错 :分词所用库初始化失败。
很好很实用
还可以 用上了 新手学习
说实话,效率慢的很。知识下载看看和自己写的有什么区别,在处理的文件多的时候速度较慢,但是很适合新手学习
没用上,应该不错吧