pytorch a2c ppo acktr gail:PyTorch实施Advantage Actor Critic(A2C)近端策略优化(PPO)可扩展的信任
pytorch-a2c-ppo-acktr 请使用本自述文件中的超级参数。 使用其他超级参数,可能无法正常工作(毕竟是RL)! 这是PyTorch的实现 优势演员评论家(A2C), 的同步确定性版本 最近策略优化 使用Kronecker因子逼近可扩展信任域方法用于深度强化学习 生成对抗模拟学习 另请参阅OpenAI帖子: 和以获取更多信息。 此实现受到 , 和的OpenAI基准的启发。 由于对Atari游戏进行了很好的调整,因此它使用相同的超级参数和模型。 如果要在出版物中引用此存储库,请使用此bibtex: @misc{pytorchrl, author = {Kostriko
下载地址
用户评论