1. 首页
  2. 移动开发
  3. 其他
  4. udacity_drl_project_3 源码

udacity_drl_project_3 源码

上传者: 2021-04-06 09:59:30上传 ZIP文件 1.5MB 热度 9次
项目3:合作与竞争 介绍 在这个项目中,我们训练了一个深度强化学习者,在Unity环境中打网球。可以在找到更详细描述解决方案的报告。 在这种环境下,两名特工控制球拍在球网上弹跳球。如果探员将球击中网,则得到+0.1的奖励。如果探员让一个球击中地面或将球击出界外,则其获得的奖励为-0.01。因此,每个特工的目标是保持比赛中的球权。 状态与行动空间 状态空间由8个变量组成,分别对应于球和球拍的位置和速度。每个代理都会收到自己的本地观察结果。有两个连续的动作可用,分别对应于朝向(或远离)网络的运动和跳跃。 解决方案 任务是情节性的。当最高得分在100个情节中达到0.5的平均得分时,这些代理被认为在当前环境中是成功的。但是,我们并没有将其停下来得分为0.5,而是进一步运行它们以判断不同的训练特征。 入门 1通过运行“ conda env create -f environment.yml”,使用此
用户评论