1. 首页
  2. 人工智能
  3. 搜索引擎
  4. Seeker基于Nutch和Hadoop的搜索引擎实现

Seeker基于Nutch和Hadoop的搜索引擎实现

上传者: 2024-10-28 23:33:18上传 ZIP文件 32.64MB 热度 7次

Seeker 是一个搜索引擎实现,使用 Apache Nutch 抓取了40个(体育和教育)域的网页。倒排索引是通过 Apache Hadoop 从这些爬取的数据中生成的。爬取的数据和倒排索引被存储在 MongoDB 中,这种 NoSQL 数据库能够更好地提升响应速度并具备良好的扩展性。整个系统通过 REST Web 服务Apache Tomcat 服务器中与数据库进行通信。网页的排名由 TF-IDF 算法和 链接分析 完成。

用户评论