多武装强盗:分析n武装强盗问题和MDP的算法 源码
多武装盗贼 分析n武装匪徒问题的算法 多武装匪徒问题(UCB稍后实施) 在第一部分中,我们尝试形象化了Q学习在提取最大奖励方面的完美程度,在预测中间奖励方面的成功程度以及最终对提供最大累积奖励的老虎机的预测程度 在第二部分中,我们检查了Q值如何饱和以及选择的最佳操作百分比随迭代次数如何稳定 我们已经使用Bell曲线在python random.gauss()函数中生成了随机数。 因此,每台这样的Bandit或Slot机器都将具有一条特性曲线(特别是在设置了它们的均值和标准差时,其值由用户输入(通常应将其关闭,并且用户不应看到实际的值) Mu和Sigma均为每种,但出于实验目的,由用户自己设
用户评论