基于lucene的搜索引擎总结
浅谈网络搜索引擎的实现
知识管理系统网络搜索模块开发实践交流
功能需求
可自定义要搜索的网站列表(以下简称目标列表)
可对目标列表网站的网页内容进行检索
可对目标列表网站的网页内容进行自动分类处理
可自定义更新周期及一些相关性能参数
系统主要功能模块
网络蜘蛛
采集、解析并保存目标列表网站的内容(网页)
全文索引/检索
为目标列表网站内容建立索引
提供内容的全文检索
自动分类
对目标列表网站内容进行分类
基本流程
网络蜘蛛
功能概要
目标文档地址队列w/r
目标文档(网页)获取
目标文档保存
文档解析并得到新的目标文档地址队列和文档正文内容
网络蜘蛛
当前版本的实现
多线程
Apache
下载地址
用户评论
太简单了,下载下来根本不是上页描述的这样,伤心