强化学习导论 | 第二章 多臂赌博机
这本书第一部分的内容是表格解决方法(即用表格来存储价值函数,从而选择最优动作)。但这类方法仅适用于状态空间和动作空间不大的情况下。本章要讲的赌博机问题只存在一个状态。 文章目录多臂赌博机问题简介动作价值Qt(a)Q_t(a)Qt(a)的计算方法1. 以往动作奖励取平均2. 增量方法计算Q值探索(exploration)和利用(exploitation)的权衡1. ε\epsilonε-greedy方法2. UCB上限置信区间方法Gradient bandit算法4. 设置乐观的初始Q值总结 多臂赌博机问题简介 假设在我们面前有kkk个赌博机(即kkk个动作),每当我们选择一个赌博机,并且摇
用户评论