1. 首页
  2. 编程语言
  3. 其他
  4. 基于网络爬虫技术的网络新闻分析系统设计及实现

基于网络爬虫技术的网络新闻分析系统设计及实现

上传者: 2023-03-10 08:23:38上传 RAR文件 14.83MB 热度 8次

系统需求概述要求爬虫系统能完成对凤凰网新闻、网易新闻、新浪新闻、搜狐新闻等网站新闻数据的实时抓取并正确抽取出正文,获取新闻的点击量,实现每日定时抓取。能将抓取回来的新闻进行中文分词,利用中文分词结果来计算新闻相似度,将相似的新闻合并起来,同时也合并点击率。最后一点,能将相似因为一段事件内的用户点击趋势以合适的形式展现出来。基于网络爬虫技术的网络新闻分析系统主要由以下几个模块构成:网络爬虫模块,中文分词模块,中文相似度判定模块,数据结构化存储模块以及数据可视化展示模块。整个系统通过不同模块间的配合,可实现对大量海量网络新闻数据的抓取、处理及展示,具有重要的社会应用价值。

用户评论