1. 首页
  2. 数据库
  3. 其它
  4. domextract:用于日本网站的基于DOM的Web内容提取器 源码

domextract:用于日本网站的基于DOM的Web内容提取器 源码

上传者: 2021-02-09 00:44:45上传 ZIP文件 3.26MB 热度 10次
提取物 用于日本网站的基于DOM的Web内容提取器。 此工具使用随机森林提取文章内容。 制备 您需要安装MeCab。 git clone https://github.com/taku910/mecab && \ cd mecab/mecab && \ ./configure --enable-utf8-only && \ make && \ make check && \ make install && \ pip install --no-cache-dir mecab-python3 && \ ldconfig && \
下载地址
用户评论