1. 首页
  2. 移动开发
  3. 其他
  4. stackexchange dataset:用于将stackexchange数据转储到语言模型的文本数据集中的Python工具 源码

stackexchange dataset:用于将stackexchange数据转储到语言模型的文本数据集中的Python工具 源码

上传者: 2021-04-07 12:40:23上传 ZIP文件 7.52KB 热度 10次
stackexchange_dataset 用于下载和处理到语言模型的文本数据集中的python工具。 在下载整个处理的数据集 设置 git clone https://github.com/EleutherAI/stackexchange_dataset/ cd stackexchange_dataset pip install -r requirements.txt 用法 要下载每个stackexchange转储并解析为文本,只需运行 python3 main.py --names all 要仅下载一个stackexchange,可以将名称添加为可选参数。 例如: python3 main.py --names security.stackexchange 要下载多个堆栈交换的列表,可以添加用逗号分隔的名称。 例如: python3 main.py --names ru.sta
下载地址
用户评论