1. 首页
  2. 数据库
  3. 其它
  4. DRL 2018:结合策略梯度方法(香草PGActor CriticPPO)和进化策略的实验 源码

DRL 2018:结合策略梯度方法(香草PGActor CriticPPO)和进化策略的实验 源码

上传者: 2021-04-08 11:28:17上传 ZIP文件 15.41KB 热度 8次
DRL-2018 该存储库的功能是2018年夏季深度强化学习研究项目的工作(由Keith Ross教授建议,由纽约大学上海分校院长本科研究基金资助)。 在此项目中,我们尝试将“策略梯度”方法(香草策略梯度(aka REINFORCE),Actor-Critic和PPO)与“进化策略”相结合,以设计出一种提高样本效率的混合算法。 在MuJoCo基准上评估了所提出算法的性能。 参考: 加强:罗纳德·J·威廉姆斯。 用于连接符增强学习的简单统计梯度跟踪算法。 机器学习,8(3-4):229–256,1992年。 影评人:理查德·萨顿(Richard S Sutton),大卫·麦卡莱斯特(David A McAllester),萨特德·辛格(Satinder P Singh)和伊谢·曼苏(Yishay Mansour)。 通过函数逼近进行强化学习的策略梯度方法。 在《神经信息处理系统的进步
下载地址
用户评论