1. 首页
  2. 数据库
  3. 其它
  4. PlainTextWikipedia:将Wikipedia数据库转储转换为纯文本文件 源码

PlainTextWikipedia:将Wikipedia数据库转储转换为纯文本文件 源码

上传者: 2021-04-24 16:02:44上传 ZIP文件 1.94MB 热度 16次
PlainTextWikipedia 将Wikipedia数据库转储转换为纯文本文件(JSON)。 这实际上可以以很高的保真度解析所有Wikipedia。 上有一个副本 指示 从转储中下载所有.bz2文件: : enwiki-20201120-pages-articles-multistream1.xml-p1p41242.bz2文件名应类似于enwiki-20201120-pages-articles-multistream1.xml-p1p41242.bz2 将所有bz2文件直接解压缩到另一个目录,例如WikipediaArchive 安装REQUIREMENTS.TXT 更新jsonify_wikipedia.py的源目录和目标目录变量 运行脚本jsonify_wikipedia.py 这会将约40MB的JSON文件存入目标文件夹。 每个文件名都基于UUIDv4,因此保证
下载地址
用户评论