1. 首页
  2. 数据库
  3. 其它
  4. wmt2021:WMT 2021的存储库 源码

wmt2021:WMT 2021的存储库 源码

上传者: 2021-02-27 06:15:25上传 ZIP文件 305.64KB 热度 23次
wmt2021 WMT 2021的存储库 获取数据 ./scripts/get_data.sh -c paracrawl ./scripts/get_data.sh -c reuters 创建小型语料库 ./scripts/preprocess_small_sample.sh 解压缩数据并拆分以进行训练,开发和测试 ./scripts/preprocess_data.sh 脚本运行完成后,您将获得以下句子计数:JA PARACRAWL TRAIN句子的总数为1292000 EN PARACRAWL TRAIN句子的总数为1292000 JA PARACRAWL DEV句子的总数为5000
用户评论