HTMLParser2.0SNAPSHOT中的filterbuilder.jar
它是java编写的可以对HTML文件进行过滤和分析,可以把文件分析成节点组成的树型结构,主要功能有信息提取2、信息转换链接重写,用于修改页面中的所有超链接;网页内容拷贝,用于将网页内容保存到本地;内容检验,可以用来过滤网页上一些令人不愉快的字词;
HTML信息清洗;转成XML格式数据。
下载地址
用户评论
还是个能参考的