LCQMC Large scale Chinese Question Matching Corpus
LCQMCLarge scale Chinese Question Matching Corpus是一个大规模的中文文本匹配数据集.它包含超过400000个标记为重复或非重复的问题对.该数据集由中国科学院自动化研究所CASIA深度学习技术与应用国家工程实验室NEL DLT创建.LCQMC数据集中的问题涵盖广泛的主题并以口语化的中文编写使其成为文本匹配模型具有挑战性的数据集.该数据集通常用于训练和评估各种中文文本匹配模型的性能例如基于神经网络的模型.它还用于中文自然语言处理的研究例如文本匹配文本分类和其他NLP任务.该数据集为研究人员提供了一个基准用于评估其模型的性能并将其与最先进的方法进行比较.
下载地址
用户评论