1. 首页
  2. 编程语言
  3. 其他
  4. 基于规则模型的通用网页正文提取组件

基于规则模型的通用网页正文提取组件

上传者: 2019-06-04 17:05:33上传 RAR文件 500kb 热度 40次
演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。可用于大家收集语料时候网页内容提取之用。如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数看看有没开发商业版本的必要,对于商业版本将采
下载地址
用户评论
码姐姐匿名网友 2019-06-04 17:05:33

不错,NET的

码姐姐匿名网友 2019-06-04 17:05:33

仅供参考,很多正则过期了。