Python中文分词库jieba,pkusegwg性能准确度比较
中文分词,将中文语句切割成单独的词组。英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多。分词主要用于NLP 自然语言处理,使用场景有:。我个人常用的一直都是结巴分词,最近使用pkuseg,两者的使用后面详细讲。我个人的使用建议,如果想简单快速上手分词可以使用结巴分词,但如果追求准确度和特定领域分词可以选择pkuseg加载模型再分词。另外jieba和THULAC并没有提供细分领域预训练模型,如果想使用自定义模型分词需使用它们提供的训练接口在细分领域的数据集上进行训练,用训练得到的模型进行中文分词。更多关于Python中文分词库jieba,pkusegwg的相关文章可以点击下面的相关链接
用户评论