强化学习(四)用蒙特卡罗法(MC)求解 上传者:weiyw13820 2021-01-09 23:33:06上传 PDF文件 247.13KB 热度 7次 作者:刘建平 编辑:陈人和 前 言 在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型P都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。 蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分。 章节目录 不基 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论 weiyw13820 资源:453 粉丝:0 +关注 上传资源 免责说明 本站只是提供一个交换下载平台,下载的内容为本站的会员网络搜集上传分享交流使用,有完整的也有可能只有一分部,相关内容的使用请自行研究,主要是提供下载学习交流使用,一般不免费提供其它各种相关服务! 本站内容泄及的知识面非常广,请自行学习掌握,尽量自已动脑动手解决问题,实践是提高本领的途径,下载内容不代表本站的观点或立场!如本站不慎侵犯你的权益请联系我们,我们将马上处理撤下所有相关内容!联系邮箱:server@dude6.com