1. 首页
  2. 人工智能
  3. 深度学习
  4. 中英平行语料库(八万对句粒度)

中英平行语料库(八万对句粒度)

上传者: 2019-09-03 01:28:10上传 ZIP文件 35.14MB 热度 68次
共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。句粒度,但有不少长句,裁剪后5w对也够用。原始数据集也在包中,其中en-zh_News.tmx有一部分句子有问题,(en-zh.csv丢弃了有问题的句子),如果必要建议不要直接使用该文件。另外附赠我对语料的预处理文件(propressor.py),以及数据集(pytorch的Dataset)等相关的实现(LangData.py)。如果又可以改善的地方,欢迎留言
下载地址
用户评论