IndexTextCollect 使用Lucene索引TREC语料库和维基百科
索引文本收集一个简单的实用程序,用于使用Lucene索引几个重要的文本集合并提取帖子(如有必要)。创建它是为了生成数据集以测试快速检索算法: :不带术语提取帖子:您可以加载2d术语的帖子,但您不知道该术语是什么。这是故意这样做的:TREC收集许可证允许我们仅在无法从派生数据恢复原始数据时发布派生数据。为了测试软件,我们还获取查询日志文件并进行转换。也就是说,我们用发布ID替换条款。可以提取未修改的帖子和按URL排序的文档的帖子。目前支持的集合有:维基百科(从获取网页转储)政府2 ( ) ClueWeb09 ( )用法:如果需要安装java (JDK)如果需要安装maven编译索引:启动/ index.sh“[类型:维基百科,trec:GOV2,trec:ClueWeb09] [文件位置(维基百科的单个文件)]
用户评论