maintenance_learning_course_materials:讲义包括解决方案的教程任务以及帕德博恩大学举办的强化学习课程的在线视频 源码
强化学习课程资料 讲义,教程任务(包括解决方案)以及帕德博恩大学主办的强化学习课程的在线视频。 整个课程材料的源代码是开放的,我们诚挚地邀请所有人使用它进行自学(学生)或设置自己的课程(讲师)。 演讲内容 强化学习导论 马尔可夫决策过程 动态编程 蒙特卡洛方法 时差学习 n步自举 使用表格方法进行计划和学习 监督学习下的函数逼近 函数逼近的策略上预测 基于函数的基于值的控制 资格跟踪 政策梯度法 第一部分摘要:有限状态和动作空间中的强化学习 第二部分摘要:课程完成和展望 全部课程幻灯片 练习内容 适用于科学计算的Python基础 手动解决基本的马尔可夫链,奖励和决策问题 啤酒学士和动态编程(
用户评论