ChatGPT在多项NLU任务中表现超越Fine-tuned Bert模型
ChatGPT被广泛关注,它能够以高质量和流畅的方式回答各种问题。然而,对于ChatGPT的理解能力却鲜有人深入研究。本文分享了一篇关于ChatGPT在8个NLU任务中的量化分析,涉及释义、自然语言推理、情感分析、文本相似性、问题释义(QQP)、文本涵义和问答蕴含等多个任务。这些评测结果展示了ChatGPT在这些任务中的表现超越了Fine-tuned Bert模型。然而,实验结果却令人大为诧异。我们使用广泛适用的GLUE基准来对模型进行评估,抽取了开发集的子集进行评测。除了STS-B,它是一个回归任务,其他任务都是分类任务。本文随机抽取每个类别的25个实例来进行评测。
下载地址
用户评论