anuvaad parallel corpus 源码
阿努瓦德平行语料库 该库包含与开发的流行印度语言的并行语言语料库链接。 请联系了解链接数据集的任何说明/解释/使用。 状态 建立的并行语料库的当前状态(并且每天都在增长!): 语言对 平行语料库计数 英语-印地语 1,906,384 英语-孟加拉语 1,253,146 泰米尔语 1,022,212 英语-马拉雅拉姆语 1,148,457 英语-泰卢固语 1,165,148 英语-卡纳达语 50,731 目标 目标是为各个领域(司法,教育,医学,新闻等)的印度语言建立高质量的并行语料库。 最终可以将其用于基于用例来训练ML模型。 了解更多有关Anuvaad的信息@ 下提供了用于构建以下提到的数据集的代码 链接 英语-印地语 领域 来源 年 En-Hi对计数 语料库下载链接 司法 多种来源 2010-2020 947,148 司法 HC / SUVAS 不适用 81,88
用户评论