学习边行动边思考的人类思维模仿方法(中文版)
语言在人类思维中扮演着关键角色,赋予我们概括、探索、规划、重新规划和适应新情况的非凡能力。然而,强化学习(RL)代理在这些领域远远落后于人类水平。我们推测这种认知差距的其中一个原因是缺乏语言思维带来的益处。为了提升人工智能代理的表现,我们尝试训练其模仿人类的思维方式。我们引入了一种创新的模仿学习框架,名为思想克隆,不仅模仿人类行为,还涵盖了人类在执行这些行为时的思维过程。尽管我们期望思想克隆在涉及互联网规模的人类数据集时有突出表现,这些数据集包含人类行动时的思维记录(例如带有文字记录的在线视频),但我们在综合生成思维与行动数据的领域进行了实验。结果显示,思想克隆的学习速度比行为克隆要快得多,并且随着分布式测试任务的增加,其性能优势也逐渐显现,凸显出其更好地处理新情况的能力。思想克隆还为人工智能的安全性和可解释性带来重要好处,并使得调试和改进AI变得更加便捷,因为我们能够观察代理的思维过程。
下载地址
用户评论