Q GridWorld:使用表格Q学习算法的演示项目 源码
Q-GridWorld演示 一个简单的Unity项目,以表格形式展示了Q学习算法。 要获得浏览器内WebGL版本,请点击的链接。 总览 在最简单的情况下,我们有一个5x5的网格世界,其中有一个特工(蓝色方块),一个目标(绿色方块)和障碍物(红色方块)。 对于演示的每次运行,都会随机选择代理商,目标和障碍物的位置(但在同一演示运行中保持一致)。 在这种网格世界环境中,代理的目标是学习一种策略,以有效地从其起始位置导航到目标位置,同时避免障碍。 它通过学习针对处于每种状态的最佳行动来实现这一目标(通常称为强化学习策略)。 这里的动作是移动的方向(北,南,东和西),而这里的状态是其在网格世界中的位置
下载地址
用户评论