1. 首页
  2. 人工智能
  3. 机器学习
  4. 大型语言模型事实准确性与上下文关联数据集

大型语言模型事实准确性与上下文关联数据集

上传者: 2025-01-03 13:37:04上传 ZIP文件 4.53MB 热度 10次

Google DeepMind和Google Research联合创建的数据集,用于评估和提升大型语言模型(LLMs)在事实准确性和上下文关联(grounding)方面的表现。数据集包含1719个示例,涵盖金融、科技、零售、医疗和法律等多个领域。每个示例要求模型基于长达32000个token(约20000字)的文档生成详细响应。

数据集中的每个示例包括系统指令(system_instruction),用户请求(user_request),以及提供回答所需信息的长文档(context_document)。此外,还包含用于评估模型生成响应的评价提示。为确保公正性,数据集分为“公共”(860个示例)和“私有”(859个示例)两部分。公共部分已公开,供研究人员和开发者使用,私有部分用于排行榜评分,防止基准污染和作弊。

评估模型响应的任务由三款领先的LLMs执行:Gemini 1.5Pro、GPT-4o和Claude 3.5Sonnet。

下载地址
用户评论