Java正则表达式提取html纯文本
做内容的大家都知道,从html中直接提取纯文本是一个非常大的问题。现将我做的正则匹配贴上: import java.util.regex.Matcher; import java.util.regex.Pattern; public class TestReg { static String reg = "<[a-zA-Z]+.*?>([sS]*?)</[a-zA-Z]*>"; public static void main(String[] args) { // TODO Auto-generated method stub String str = "
下载地址
用户评论