1. 首页
  2. 数据库
  3. 其它
  4. 基于可中断Option的在线分层强化学习方法

基于可中断Option的在线分层强化学习方法

上传者: 2021-01-16 23:04:03上传 PDF文件 917KB 热度 11次
针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。
下载地址
用户评论