SolrTextTagger:使用FST技术的基于Lucene Solr的文本标记器 源码
Solr文本标注器 该项目使用Lucene FST(有限状态换能器)技术实现了基于Apache Lucene / Solr的“幼稚”文本标记器,该技术具有明显的低内存特性。 它之所以“天真”,是因为它在不考虑任何自然语言上下文的情况下进行了简单的基于文本单词的子字符串标记。 它根据您在Lucene中配置文本分析的结果进行操作,因此,如果您愿意,可以很灵活地将语音之类的东西与语音匹配进行匹配。 有关更多信息,请参见下面引用的演示视频/幻灯片。 标记器可用于查找大文本中的实体/概念,或在查询中同样用于增强查询理解。 有关此标记器版本的更改列表,以包括Solr&Java版本兼容性,请参阅 注意:
下载地址
用户评论