1. 首页
  2. 编程语言
  3. 其他
  4. 论文研究基于标记窗的网页正文信息提取方法.pdf

论文研究基于标记窗的网页正文信息提取方法.pdf

上传者: 2019-09-26 05:20:46上传 PDF文件 216.24KB 热度 30次
提出了基于标记窗的网页正文信息提取方法。该方法不仅适合于处理一个网页中所有正文信息均放在一个td中的情况,也适合于处理网页正文放在多个td中的情况,还可以处理网页正文文字短到与网页其余部分文字(如广告、导航条、版权)长度相当的情况。尤其重要的是,它能够解决非Table结构的网页正文提取问题。实验表明,该方法可以提高网页正文提取的准确率,适用性强。
用户评论