1. 首页
  2. 数据库
  3. 其它
  4. 求解部分可观测马氏决策过程的强化学习算法

求解部分可观测马氏决策过程的强化学习算法

上传者: 2021-03-12 16:29:01上传 PDF文件 339.49KB 热度 7次
针对部分可观测马氏决策过程(POMDP) 中, 由于感知混淆现象的存在, 利用Sarsa 等算法得到的无记忆策 略可能发生振荡的现象, 研究了一种基于记忆的强化学习算法——CPnSarsa (K) 学习算法来解决该问题. 它通过重新 定义状态,A gent 结合观测历史来识别混淆状态. 将CPnSarsa (K) 算法应用到一些典型的POMDP, 最后得到的是最 优或近似最优策略. 与以往算法相比, 该算法的收敛速度有了很大提高.
用户评论