基于网络爬虫技术的网络新闻分析系统设计及实现
系统需求概述要求爬虫系统能完成对凤凰网新闻、网易新闻、新浪新闻、搜狐新闻等网站新闻数据的实时抓取并正确抽取出正文,获取新闻的点击量,实现每日定时抓取。能将抓取回来的新闻进行中文分词,利用中文分词结果来计算新闻相似度,将相似的新闻合并起来,同时也合并点击率。最后一点,能将相似因为一段事件内的用户点击趋势以合适的形式展现出来。基于网络爬虫技术的网络新闻分析系统主要由以下几个模块构成:网络爬虫模块,中文分词模块,中文相似度判定模块,数据结构化存储模块以及数据可视化展示模块。整个系统通过不同模块间的配合,可实现对大量海量网络新闻数据的抓取、处理及展示,具有重要的社会应用价值。
用户评论