wikiextractor:从Wikipedia转储中提取纯文本的工具 源码
WikiExtractor 是一个Python脚本,可从中提取和清除文本。 该工具是用Python编写的,不需要Python 3,但没有其他库。 警告:由于Windows上的Python实现对StringIO支持不佳, StringIO在Windows上已报告问题。 有关更多信息,请参见 。 维基百科卷云提取器 cirrus-extractor.py是从Wikipedia Cirrus转储执行提取的脚本版本。 Cirrus转储包含带有已扩展模板的文本。 Cirrus转储位于: 。 细节 WikiExtractor通过预处理整个转储并提取模板定义来执行模板扩展。 为了加快处理速度: 多重处理用于并行处理文章 缓存中保留有已解析的模板(仅适用于重复提取)。 安装 该脚本可以直接调用: python -m wikiextractor.WikiExtractor <Wikipedi
用户评论