1. 首页
  2. 移动开发
  3. 其他
  4. 论文研究 一种基于特征符号的网页主题信息抽取方法.pdf

论文研究 一种基于特征符号的网页主题信息抽取方法.pdf

上传者: 2020-07-17 22:25:55上传 PDF文件 341.11KB 热度 26次
随着Internet网络的日益普及,Web上的海量数据给文本挖掘尤其是网页主题提取带来了更多的挑战,现有的文本提取方法在保证高准确率的同时无法满足Web挖掘方法的通用性。通过对Web网页结构进行研究,对网页生成树模型进行了改进,找到网页结构的通用规则,提出一种基于特征符号的提取方法CECS(content extraction characteristic symbols),结合相关度对网页主题内容进行提取。实验证明,所提算法具有很高的准确性和通用性。
用户评论