论文研究自适应重要采样ActorCritic算法 .pdf
自适应重要采样Actor-Critic算法,冯涣婷,,在离策略Actor-Critic(AC)强化学习中,虽然Critic使用重要采样技术可以减小值函数估计的偏差,但是重要采样方法没有考虑估计的方差,算��
下载地址
用户评论