OpenAI的超级对话模型ChatGPT如何优化答案输出?
ChatGPT是基于GPT3进行finetune操作得到的新模型,为了解决GPT3输出有毒或不可信的回答,采用了reinforcement learning from human feedback (RLHF)方法。具体实现过程为:获取大量的demonstration data,finetune GPT3,让人评分并学习打分模型,再利用增强学习优化模型。研究结果表明,相较于GPT3,InstructGPT的输出更受标注人员欢迎。通过RLHF方法,ChatGPT可以更好地优化答案输出。
下载地址
用户评论