1. 首页
  2. 数据库
  3. 其它
  4. 连续空间增量最近邻时域差分学习

连续空间增量最近邻时域差分学习

上传者: 2021-01-16 02:14:40上传 PDF文件 345.7KB 热度 9次
针对连续空间强化学习问题, 提出一种基于局部加权学习的增量最近邻时域差分(TD) 学习框架. 通过增量方式在线选取部分已观测状态构建实例词典, 采用新观测状态的范围最近邻实例逼近其值函数与策略, 并结合TD 算法对词典中各实例的值函数和资格迹迭代更新. 就框架各主要组成部分给出多种设计方案, 并对其收敛性进行理论分析. 对24 种方案组合进行仿真验证的实验结果表明, SNDN组合具有较好的学习性能和计算效率.
下载地址
用户评论