基于行块分布函数的通用网页正文抽取算法
运用正则表达式能够精确的抽取某一固定格式的页面,但面对形形色色的HTML,运用规则处置难免捉襟见肘。能不能高效、精确的将一个页面的正文抽取出来,并做到在大范围网页范围内通用,这是一个直接关系上层应用的难题。
下载地址
用户评论
坑爹的,毛都没有
没有源码根本不好用,上面评论都是刷的吧就当5分喂狗了
没有源码,也没有相应的类库,坑爹货
这里面真的是有源码的,算法比较清晰精简,效果也还不错,思路不错。
上边评论的都是骗纸,就给了一个.exe文件,根本不是介绍的那样。一点用都没有。。。
很有用,学习了
做爬虫的时候用上了,相当不错
做新闻爬虫的时候用上了,谢谢
资源不错,值得下载
很好的资源,但是我想看到源码