Using Data Augmentation Based RL for Daily Stock Trading..pdf 上传者:qq_54132 2020-11-05 21:05:46上传 PDF文件 1.26MB 热度 37次 强化学习的目的是最大化长期未来奖励,即寻找最大的 U。(注:回报也作 G 表示) 基于回报(return),我们再引入两个函数 状态价值函数:,意义为基于 t 时刻的状态... 下载地址 用户评论 更多下载 下载地址 立即下载 用户评论 发表评论