基于文本和符号密度的网页正文提取算法
一种基于网页文本密度和符号密度的提取算法,可以快速、准确地提取网页正文内容,并且保留原始结构。与其它算法相比,该算法精确度更高,能够支持大数据量的正文提取。主要涉及文本密度、算法、噪音以及正文提取技术等方面。DOI:10.14022/j.cnki.dzsjgc.2019.08.029
下载地址
用户评论