IR Project My Simple Sports News Retrieval System
IR_project_my这个项目主要是一个简单的信息检索系统,实现体育新闻的检索。系统的主要功能包括:
-
数据的获取与预处理:使用爬虫抓取新闻数据,并对获取的HTML文件进行处理,抽取出新闻的title、keywords、description、body、time、hot等关键部分。文本数据进一步进行分词,去除停用词,识别新词等处理。
-
索引构建:系统构建了两层倒排索引,一层基于新闻的title、description和keywords,另一层基于news body的内容。此外,构建了正排索引存储文档向量,用于计算文档间的相似度。
-
信息检索后台处理:系统支持倒排索引合并和分层检索,能够对检索结果进行文档排序,并将相关结果返回给前端展示。此外,还可以将检索结果进行聚类处理,提升结果的相关性与精准度。
下载地址
用户评论