1. 首页
  2. 编程语言
  3. Web开发
  4. 从HTML文件中抽取正文的简单方案.pdf

从HTML文件中抽取正文的简单方案.pdf

上传者: 2021-04-20 11:36:19上传 PDF文件 156.36KB 热度 12次
译者导读:这篇文章主要介绍了从不同类型的HTML文件中抽取出真正有用的正文内容的一种有广泛适应性的方法。其功能类似于CSDN近期推出的“剪影”,能够去除页眉、页脚和侧边栏的无关内容,非常实用。其方法简单有效而又出乎意料,看完后难免大呼原来还可以这样!行文简明易懂,虽然应用了人工神经网络这样的算法,但因为FANN良好的封装性,并不要求读者需要懂得ANN。全文示例以Python代码写成,可读性更佳,具有科普气息,值得一读。
下载地址
用户评论