葡萄牙语母语识别数据集
在本文中,我们介绍NLI-PT,它是为母语识别(NLI)编译的第一个葡萄牙语数据集,它根据第二语言写作来识别作者的第一语言。 该数据集包括由欧洲葡萄牙语学习者撰写的1868篇学生散文,其母语为以下L1:中文,英文,西班牙文,德文,俄文,法文,日文,意大利文,荷兰文,德顿文,阿拉伯文,波兰文,韩文,罗马尼亚文, 和瑞典语。 NLI-PT包括原始学生文本和四种不同类型的注释:POS,细粒度POS,选区分析和依赖分析。 NLI-PT不仅可以用于NLI,还可以用于第二语言习得和教育NLP领域的几个主题的研究。 我们讨论了这个数据集的可能应用,并展示了葡萄牙语NLI的第一个词汇基线系统的结果。
用户评论