基于网络爬虫技术的网络新闻分析
基于网络爬虫技术的网络新闻分析主要用于网络数据爬取。本系统结构如下: (1)网络爬虫模块。 (2)中文分词模块。 (3)中3文相似度判定模块。 (4)数据结构化存储模块。 (5)数据可视化展示模块。按照对系统需求调用的内容分析,系统功能划分为了一下五个模块:数据采集模块负责数据采集,即热点网络新闻数据的定时采集,以及数据的初步拆分处理。 (1)中文分词模块:中文分词模块能将数据采集模块采集到的热点网络新闻数据进行较为准确的中文分词。 (2)中文相似度判定模块:中文相似度判定模块通过将数据采集模块采集到的热点网络新闻数据结合中文分词模块的分词结果,进行网络热点新闻的相似度分析,并能够将相似新闻进行数据合并。 (3)数据结构化存储模块:数据结构化存储模块贯穿在其他模块之中,在数据采集模块中,负责存储采集拆分后的热点网络新闻数据;在中文分词模块中,负责从数据库读出需要分词处理的网络新闻数据;在中文相似度判定模块中,负责从将分析得到的相似新闻进行存储;在数据可视化展示模块中负责将相似热点新闻数据从数据库读出,其中涉及到大量关于数据库资源的处理。 (4)数据可视化展
用户评论