含有3种切分方法
getWord长度优先切分。最快
getShortWord细粒度切分。比最快慢一点点
getAutoWord自动切分(在相邻词做了递归)。效果最好
可自定义词典,自己添加词语到词库,词库支持文本格式json和二级制格式igb二进制格式词典小,加载快
dict.igb含有175662个词,欢迎大家补充词语到dict.txt,格式(词语\tidf\t词性)
idf获取方法百度搜索这个词语Math.log(100000001/结果数量),如果你有更好的方法欢迎补充。
词性[标点符号,名词,动词,形容词,区别词,代词,数词,量词,副词,介词,连词,助