1. 首页
  2. 移动开发
  3. 其他
  4. 文心一言、GPT3.5和GPT-4的性能对比测评

文心一言、GPT3.5和GPT-4的性能对比测评

上传者: 2023-05-19 20:07:56上传 PDF文件 6.32MB 热度 11次

OpenAI于2023年3月14日发布最新版本多模态大模型GPT-4及其API;国内百度于3月16日发布生成式大模型“文心一言”并开放邀请测试。为对比国内外大模型在各领域的性能差异,我们对文心一言、GPT-3.5(ChatGPT的原模型)和GPT-4的问答表现分别进行了测评。测评涉及常识和创作(文学/图片)、归纳和推理(演绎推理/情感推理/逻辑推理/主体信息抽取)、数学和代码、应用(AI助手/客服/办公协同/推荐/诗词理解)等方面。三大模型在常识和创作类问题中均能正确回答客观常识类问题;进行文学创作结果能体现正面价值观,但文心一言的分词功能有待提升;在归纳和推理类问题中,三大模型在情感推理类问题中有提升空间;在数学和代码类问题中,GPT-3.5有更好的数学能力表现;GPT-3.5及GPT-4模型均完成了本文提出的代码生成问题,但并非最优解。

用户评论