Elasticsearch-Analysis-Jieba 8.17.5中文分词插件
Elasticsearch 的中文分词能力,一直是让人头疼的事儿。elasticsearch-analysis-jieba-8.17.5这个插件,用起来还挺顺手的,尤其适合那些需要精准中文搜索的场景。你装上它,就能让 Elasticsearch 调用 Jieba 分词器,搞定中文文本的切词问题,效果还不错。
Jieba 分词本身就有名,三种分词模式够你选,像是“精确模式”用来控制结果干净,“搜索引擎模式”就比较适合倒排索引那一套。你在配置索引的时候指定用它分词器,中文就不那么头大了。
插件里的结构也清晰,elasticsearch-analysis-jieba-8.17.5.jar
是主力,还有jieba-analysis-1.0.2.jar
作为支持包。plugin-descriptor.properties
负责告诉 Elasticsearch 插件是干嘛的,commons-lang3-3.3.1.jar
是辅助的工具包,负责一些字符串的细节。
安装也不复杂,放进plugins
目录重启就行。用法上,只要在mapping
里加上对应的 analyzer 配置,中文字段自然就走 Jieba 的分词逻辑了。嗯,不用你自己再折腾分词组件,方便多了。
还有个点要注意下,插件要对上 Elasticsearch 版本号。比如你用的是 8.17.5,就得用这个版本的 jar 包,不然容易报错。版本对上了,整个跑起来也挺稳的。
如果你项目里中文搜索不少,而且又用 Elasticsearch,那真建议你试试这个插件。节省不少开发时间,而且社区活跃,出了新版本基本也跟得上。
下载地址
用户评论