论文研究基于标记窗的网页正文信息提取方法.pdf 上传者:houguof 2019-09-26 05:20:46上传 PDF文件 216.24KB 热度 52次 提出了基于标记窗的网页正文信息提取方法。该方法不仅适合于处理一个网页中所有正文信息均放在一个td中的情况,也适合于处理网页正文放在多个td中的情况,还可以处理网页正文文字短到与网页其余部分文字(如广告、导航条、版权)长度相当的情况。尤其重要的是,它能够解决非Table结构的网页正文提取问题。实验表明,该方法可以提高网页正文提取的准确率,适用性强。 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论