ChatGPT进化:基于人类反馈的学习模式
GPT-1到GPT-3的理论、结构和实验结论已有详细解析。GPT-2通过纯无监督预训练引起学术界广泛关注,而GPT-3在此基础上进一步增强了模型容量和能力,相应地市面上关于GPT-3的应用也日渐增多。随后出现的InstructGPT受到更多关注。作为孪生兄弟,ChatGPT和InstructGPT在模型结构和训练方法上完全一致,主要借鉴了指示学习和来自人类反馈的强化学习。与InstructGPT相比,ChatGPT拥有更多的训练数据。ChatGPT发展历程简述:1. GPT-1采用无监督预训练+有监督微调模式;2. GPT-2采用无监督预训练模式,提出zero-shot理念;3. GPT-3与GPT-2相同的结构和训练方式,同样采用无监督预训练模式,提出了in-context learning模式,模型容量大幅增加;4. InstructGPT与GPT-3类似,但数据量进一步增加。
用户评论