2D迷宫求解器Q学习:达特茅斯COSC 16的最终项目 源码
简单2D迷宫的Q学习求解器 依赖库 PyGame 2.0.0,NumPy 1.19.4 怎么跑 确保已安装所有依赖库,然后只需在该项目的根目录中运行python ./maze_q_learning_solver.py 。 预期行为 可以在设置用于Q学习算法的各种参数。 默认情况下,代理会训练2000个情节,每50个情节显示一次训练过程。 在训练了2000次情节之后,特工开始专门利用先前学习的Q表,每次达到目标后都会暂停一下。 在渲染的图形中,主体是蓝色的球,黑色的方块是难以逾越的墙,绿色的方块是目标。 您可以观察到代理在最初的几个渲染情节中似乎毫无目的地地迷惑了迷宫,并逐渐变得更有效地解决了迷宫。 使用默认的迷宫和参数,代理会在几个渲染的情节后开始始终如一地采取最短的路线(随着情节数量的增加,代理更倾向于利用学习的Q表而不是随机探索,这表明正确实施了Q学习算法)。 算法 用于帮助代理训
用户评论