trpo:使用TensorFlow和OpenAI Gym优化信任区域策略 源码
广义优势估计的信任域策略优化 帕特里克·科迪(Patrick Coady): 概要 注意:代码已重构为使用TensorFlow 2.0和PyBullet(而不是MuJoCo)。 请参阅tf1_mujoco分支以获取旧版本。 该项目的最初目标是使用相同的算法来“解决” 。 并且,具体地说,要在不手动调整每个环境的超参数(网络大小,学习速率和TRPO设置)的情况下实现此目的。 这是具有挑战性的,因为环境的范围从具有单个控制输入的简单手推车杆问题到具有17个受控关节和44个观察变量的类人动物。 该项目成功完成,几乎在所有AI Gym MuJoCo排行榜上都位居榜首。 随着TensorFlow 2
下载地址
用户评论