1. 首页
  2. 移动开发
  3. 其他
  4. NTU ReinforcementLearning Notes:国立台湾大学李宏毅老师讲解的深度强化学习学习笔记 源码

NTU ReinforcementLearning Notes:国立台湾大学李宏毅老师讲解的深度强化学习学习笔记 源码

上传者: 2021-04-04 17:28:00上传 ZIP文件 4.31MB 热度 30次
李宏毅深度强化学习笔记 课程主页: 视频: 李宏毅老师讲这门课不是从MDP开始讲起,而是从如何获得最佳奖励出发,直接引出政策梯度(以及PPO),再讲Q-learning(原始Q-learning,DQN,各种DQN的升级),然后是A2C(以及A3C,DDPG),紧接着介绍了一些Reward Shaping的方法(主要是好奇心,课程学习,分层学习) ,,最后介绍模仿学习(逆RL)。比较全面的展现了深度强化学习的核心内容,也比较直观。跟伯克利学派的课类似,与UCL上来就讲MDP,解各种值迭代的思路有悖论。文档中的注释以对幻灯片的批注为主,方便在阅读幻灯片时理解,代码以纯tensorflow实现,主要参考,修正部分代码以保持一致,已经加入理解的注释。 参考资料: 代码中的tensorlayer实现来自于 ,比起原生tensorflow更加简洁
下载地址
用户评论