抓取网页的关键信息
基于行分块函数的方法解决网页正文的提取,先爬取网页在经过正则的过滤标签,之后就是用的行分块函数。
下载地址
用户评论
是Java的代码,还是很有帮助的