ChatGPT:一种基于人类反馈强化学习的对话模型
ChatGPT是一种使用人类反馈强化学习(RLHF)进行训练的对话模型。它可以模拟对话,并具备回答后续问题、承认错误、挑战前提和拒绝不恰当请求的能力。OpenAI通过收集了比较数据来创建强化学习的奖励模型,其中包含按质量排序的两个或多个响应模型。为了提高生成文本的易读性,OpenAI聘请了人类训练师,在训练过程中,训练师扮演了用户和人工智能助手的角色。该模型是在Microsoft Azure的超算设施上进行训练的。
下载地址
用户评论