模仿学习限制螺栓 源码
带有约束螺栓的异物仿制学习 额外的学习案例 在强化学习中,发现建模精确的奖励函数(导致代理商的期望行为)具有挑战性是一个常见的问题。 逆向强化学习旨在从专家代理提供的一组动作和观察中提取奖励功能,这可以是另一种训练有素的模型,基于模型的方法甚至是人类。 模仿学习是学习者从专家的行为中尝试的技术。 在该存储库中,探索了“约束螺栓”方法,该方法在一文中有详细描述 (De Giacomo等,2020年)。 环境:突围 特征 目标:卸下所有砖柱。 至少有1行3列砖 专家在左边。 用火作为摧毁砖块的行动。 学习者在右边。 使用弹跳球摧毁砖块。 在顶部添加一个额外的桨来响应击球。 设置 在Ubunt
用户评论