Seeker基于Nutch和Hadoop的搜索引擎实现
Seeker 是一个搜索引擎实现,使用 Apache Nutch 抓取了40个(体育和教育)域的网页。倒排索引是通过 Apache Hadoop 从这些爬取的数据中生成的。爬取的数据和倒排索引被存储在 MongoDB 中,这种 NoSQL 数据库能够更好地提升响应速度并具备良好的扩展性。整个系统通过 REST Web 服务 在 Apache Tomcat 服务器中与数据库进行通信。网页的排名由 TF-IDF 算法和 链接分析 完成。
下载地址
用户评论