Trust Region Policy Optimization PDF论文下载 上传者:yk_wyw 2019-09-25 15:32:34上传 PDF文件 952.29KB 热度 53次 TRPO算法的论文,是强化学习算法PPO、DPPO的基础,论文中对算法优化原理进行了比较详细的推导 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论