搜狗词库中文分词专用版
搜狗的最新词库,蛮适合做分词实验或者搞点轻量级搜索引擎的原型。词量有两百万,而且都已经去重了,干净整洁,用起来比较放心。尤其在中文的时候,新词、网络热词这种,用这个词库挺省心的。
搜狗词库的“新”和“去重”这两个特点还挺实用。你要是搞中文分词,肯定知道那些年踩过的坑——词重复、乱序,还有一堆老黄历词。现在直接一个包搞定,省事儿多了。
像你要用正向最大匹配或者HMM 模型来跑分词,这词库直接喂进去就行。再配合你自个儿的算法调优,效果还挺不错的。也别忘了根据业务场景,比如短文本、搜索建议这类,动态调整词频才更靠谱。
词库是按子文件结构来的,比如e7a9993aca0b4100802e17eea035af05
这种,看着像哈希值,其实率是词库版本的标识,用来方便你做版本管理。要是你搞了自动化更新,能直接对着文件名做增量同步。
整体来说,用搜狗这套词库做中文分词的基础,还是蛮靠谱的。清洗过的数据、结构清晰、覆盖广。不管你是写个小搜索引擎练练手,还是想在项目里快速搭建个分词模块,都能派上用场。
如果你正在做中文,不妨下载来试试:搜狗最新词库。另外也可以看看这些相关资源,一起用起来更顺手。
如果你用的是Python
写的分词器,可以直接加载词库跑,性能还不错;C#
也有专门的适配资源,感兴趣可以一并看看。
下载地址
用户评论