UniEval-多维度评估与布尔问答的新颖方法
研究场景中的自然语言生成(NLG)中,多维度评估是一种常用的方法,通过评估生成文本的连贯性和流畅性等方面来进行人工评估。然而,在自动评估方面,目前主要还是依赖基于相似性的指标,缺乏一个全面可靠的评估框架。为解决这一问题,本文提出了一种称为UniEval的统一多维度评估器。UniEval将NLG评估重新定义为布尔问答的任务,并通过使用不同的问题来引导模型进行评估。该评估器能够从多个维度对模型进行全面评估,并且引入中间学习阶段,从而能够融入外部知识并进一步改进模型性能。实验结果表明,在三个典型的NLG任务上,UniEval的相关性比现有指标更好,特别是在文本摘要和对话响应生成方面。此外,UniEval还展示了对未见过的评估维度和任务具有强大的零样本学习能力。
下载地址
用户评论